murawaki の雑記

はてなグループから移転してきました

Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages

Sean Lee and Toshikazu Hasegawa. Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages.柄にもなく今話題のネタを取り上げてみる。日本語の諸方言の語彙を使って系統樹を作ったら、共通祖語の時期が 2182 年前と推定され…

'Race' on the Japanese Internet: Discussing Korea and Koreans on '2-Channeru'

McLelland, MJ, 'Race' on the Japanese Internet: Discussing Korea and Koreans on '2-Channeru', New Media & Society, 10(6), pp. 811-829, 2008.*1ひどい論文の紹介。おまけに私の専門外。世の中にはくだらないものが溢れているわけで、それをいちいち…

满语365句

何荣伟 ed. 满语365句, 辽宁民族出编社, 2009.This book is accompanied by a CD, and Manchu utterances were recited by a Sibe announcer. I am curious about exactly what this language is. She pronounced Manchu spellings rather faithfully. But j…

A Study of the Tacheng Dialect of the Dagur Language

By YU Wonsoo, KWON Jae-il, CHOI Moon-Jeong, SHIN Yong-kwon, BORJIGIN Bayarmend, Luvsandorj BOLD, Seoul University Press, 2008.ソウル大学校出版文化院の Altaic Languages Series の 2 冊目。Materials of Spoken Manchu とあわせて購入。久しぶりに…

NLP2011

NLP

豊橋技科大で開催されていた言語処理学会第17回年次大会 (NLP2011) の参加報告。 単なるメモ。発表の要約ではない。 ポスターはほとんどメモってないので特に適当。 口頭発表は6並列でかぶりまくり。面白そうだけど聞き逃した発表が多い。 NLP なのに (とい…

Indus "Script" Controversy

インダス「文字」が自然言語を表しているか否かという論争。なかでも、言語説を支持する証拠を示したとされる Science 論文をめぐる論争。時系列は以下の通り。 2009年5月の Science にインダス文字言語説を支持する Rao+ の論文 (第一著者 Rajesh Rao のサ…

Dated Corpus (Actually N-grams)

NLP

Baidu ブログ・掲示板時間軸コーパス*1を使って新語 (新用法) の出現時期を求めるテスト。結果は芳しくないけど。時系列コーパスといっても、期間は10年程度。通時言語学の一般的な想定よりもオーダーレベルで短い。時系列コーパスといえば東大喜連川研。定…

Rendering Traditional Mongolian with Pango

Linux (UNIX) 上で縦書きモンゴル文字を表示する方法。現実逃避の成果 (?)。font の仕組みも何もかもわかっていないので、いろいろ調べながら。Linux 上でテキストの rendering を行っているのは pango。現行版はモンゴル文字をサポートしていない。パッチが…

Parsing Wikitext

NLP

Wikipedia のデータを自然言語処理で使う。そのために wiki format のテキストを整形して、用途に応じたデータを抽出する方法。2012年2月18日追記: この情報は古くなっています。今風のスマートなやり方については、こちらのブログ記事を参照してください。…

Implementing distributed Perceptron training with GXP make

NLP

Distributed Training Strategies for the Structured Perceptron を GXP make で実装してみたものの、結局使っていない。ここでさらしてみる。まず Structured Perceptron の distributed training を手短に。online learning では、訓練データを一つずつ読…

Unsupervised phonemic Chinese word segmentation using Adaptor Grammars

NLP

Mark Johnson; Katherine Demuth: Unsupervised phonemic Chinese word segmentation using Adaptor Grammars (COLING 2010) (PDF).単体の論文としては微妙。既存の手法を少し手直しして新しいデータに適用しましたという話。結果は微妙で考察も浅い。しかし…

Traditional Mongolian support in Windows 7

縦書きモンゴル文字の入力について少し調べてみた。完全な現実逃避。歴史を遡ると、Unicode にモンゴル文字が追加されたのが version 3.0。なんと1999年。しかし長らく誰もサポートせずに放置されてきた。理由の一つは実装が難しいこと。縦書きで左から右に…

単語の zero-gram 確率

NLP

単語 w を生成する zero-gram 確率をどうやってモデル化しましょうかという話。想定する用途は単語分割。単語分割では、長さの違う単語候補同士を比較して、どっちがそれらしいか推定する。一様分布を仮定するといかにも都合が悪そう。そこで、単語が構成要…

Type-based MCMC

NLP

Percy Liang, Michael I. Jordan, Dan Klein: Type-based MCMC (PDF).スライドが神。そっちを見ればやりたいことはわかる。自分用のメモ。間違っていたら指摘してほしい。 3.3 Prior いきなり事前分布として Dirichlet distribution ではなく Dirichlet proc…

gxp for NLPers

gxp は並列処理用のツール。これを使って NLP で並列処理を行ってきた。その話をまとめてみるテスト。gxp については、既にNLP2010 のチュートリアルで開発者自身による解説があった。ただ、NLP の人間との間に問題意識にずれを感じた。これについては簡単な…

Bayesian Inference for PCFGs via Markov chain Monte Carlo

NLP

Bayesian Inference for PCFGs via Markov chain Monte Carlo (PDF).The Infinite Tree は、木を扱うものの依存木自体は与えていた。今回は木構造自体を教師なしで求める。気が狂いそうな論文。移動中に読んだ論文。着いてから調べると、案の定的確な解説が…

The Infinite Tree

NLP

The Infinite Tree (ACL 2007).依存木が与えられたとき、その木構造をうまく説明する品詞を Gibbs sampling により求める。簡潔で的確な解説が既にある。そっちを読んだほうが良い。sampling 系の話題。私がこれまで読んだ論文は系列データを扱ってきた。今…

cron on cygwin

cygwin で cron を動かそうとしてはまったのでメモ。はまった点は三つ。複合的なので症状と原因の整理はできていない。 cron が起動時にエラーを吐く。 crontab がすぐに反映されない。 通常と環境が違う。ssh-agent を反映させるのが面倒。 サービスの登録…

Migrating from Subversion to git

二つの作業のログ。(1) Subversion から git への移行。(2) 新たな git repository 二つを merge。やりたいこと。Subversion から git への移行。Subversion 時代は自分用のレポジトリを二つ使用。相互に関連しているので、移行を機に統合。Subversion から …

Life with Mac

計算機歴約15年ではじめての Mac。Apple 製品自体が QuickTime 以外では多分はじめて。しばらく放置していた MacBook Pro の設定を始める。現実逃避。まだ慣れない。余った予算で買ったわけだが、やっぱり自分で金を出さないと信者になりそうにない。今まで…

懐疑論者の勝利

移動中にどうでもいいことを思い出した。とりあえず書き出してみる。中二色全開の題をつけて。お題は Wikipedia。Wikipedia は編集方針として NPOV (neutral point of view) というのを掲げている。NPOV とは何か。Wikipedia が提示する説明はうんざりするほ…

NLP2010

NLP

NLP2010 に参加。聞き逃した発表も多い。当たり障りのない紹介を試みる。多分あとで増やす。予稿集は読まずに書いている。予稿集の入った DVD は貰ったが、持って行った B5 ノートに DVD ドライブはなかった。 大規模ラベルなしデータを利用した係り受け解析…

Empires of the Silk Road

Christopher I. Beckwith. 2009. Empires of the Silk Road.中央ユーラシアの通史。時間的にも空間的にも広すぎて、個人の手に負えるとは思えないテーマ。当然端折りまくり。重要な事件でもまったく言及されてなかったりする。Beckwith という人は言語の人だ…

日本語ネットが閉じているのは表記が原因か

本筋の検索の話。曰く、「ネットは島宇宙化しやすい。それをつなぐのは検索しかない。しかし日本語は文字が違う。オランダ語やインドネシア語なら同じアルファベットだから検索ワードで引っかかる。すると容赦なく外側に開かざるを得ない。」着眼点は面白い…

日本語の機械翻訳が悲惨な原因

NLP

ねとすた動画 2月号大反省会 その8を見ていたら、不意に NLP の話が出てきて反応してしまった。twitter に一言だけ書いたけど、残りは長くなったので雑記に投げ捨て。話の文脈。(twitter にように海外のサービスを使っていても) 結局日本で閉じていて、意外…

Markov Chain Monte Carlo with People

NLP

Sanborn, A. N., & Griffiths, T. L.: Markov Chain Monte Carlo with People. NIPS 2007. (pdf).NLP に分類したけど、論文に NLP の話は出てこない。探したら真面目に解説しているスライドがあった。こちらを見た方が良い。目的。人間の頭の中にある (と想…

Japanese POS tagset

NLP

英語を書くときに、日本語の文法用語の翻訳にいつも困る。そこで訳語の試案を書いてみるテスト。JUMAN の品詞体系。未完成。気が向いたら埋める。もちろん言葉をうつしただけでは通じないので適切な説明を添える必要がある。また、どうせ無理に訳しても通じ…

接続詞から見る日本語の付属語の独立性

日本語の接続詞はかなり変わっていて、付属語の独立性の高さを示しているのではないかという話。いい加減な議論。そして未整理。前提。すべての接続詞について議論するわけではない。ここで扱う接続詞は (1) 接続助詞や判定詞 (『基礎日本語文法』の区分) に…

くだけた表現の分類

NLP

前回の続き。前回は、提案手法が修正対象とする「くだけた表現」は非常に限定されていると推測した。混乱の原因は「くだけた表現」という表現が misleading なこと。実際に扱っているのは表記の問題だけだから。「くだけた表現」は多岐に渡り、扱うべき解析…

違法・有害情報の検出技術

NLP

「違法・有害情報の検出技術」の話は以前書いた。KDDI 研究所がくだけた表現を正規化する技術を発表したので、これを題材に再び取り上げてみる。KDDI 研究所を取り上げるのは、例によって具体例があると議論がしやすいから。しかし、発表資料は論文じゃない…