murawaki の雑記

はてなグループから移転してきました

2010-01-01から1年間の記事一覧

Parsing Wikitext

NLP

Wikipedia のデータを自然言語処理で使う。そのために wiki format のテキストを整形して、用途に応じたデータを抽出する方法。2012年2月18日追記: この情報は古くなっています。今風のスマートなやり方については、こちらのブログ記事を参照してください。…

Implementing distributed Perceptron training with GXP make

NLP

Distributed Training Strategies for the Structured Perceptron を GXP make で実装してみたものの、結局使っていない。ここでさらしてみる。まず Structured Perceptron の distributed training を手短に。online learning では、訓練データを一つずつ読…

Unsupervised phonemic Chinese word segmentation using Adaptor Grammars

NLP

Mark Johnson; Katherine Demuth: Unsupervised phonemic Chinese word segmentation using Adaptor Grammars (COLING 2010) (PDF).単体の論文としては微妙。既存の手法を少し手直しして新しいデータに適用しましたという話。結果は微妙で考察も浅い。しかし…

Traditional Mongolian support in Windows 7

縦書きモンゴル文字の入力について少し調べてみた。完全な現実逃避。歴史を遡ると、Unicode にモンゴル文字が追加されたのが version 3.0。なんと1999年。しかし長らく誰もサポートせずに放置されてきた。理由の一つは実装が難しいこと。縦書きで左から右に…

単語の zero-gram 確率

NLP

単語 w を生成する zero-gram 確率をどうやってモデル化しましょうかという話。想定する用途は単語分割。単語分割では、長さの違う単語候補同士を比較して、どっちがそれらしいか推定する。一様分布を仮定するといかにも都合が悪そう。そこで、単語が構成要…

Type-based MCMC

NLP

Percy Liang, Michael I. Jordan, Dan Klein: Type-based MCMC (PDF).スライドが神。そっちを見ればやりたいことはわかる。自分用のメモ。間違っていたら指摘してほしい。 3.3 Prior いきなり事前分布として Dirichlet distribution ではなく Dirichlet proc…

gxp for NLPers

gxp は並列処理用のツール。これを使って NLP で並列処理を行ってきた。その話をまとめてみるテスト。gxp については、既にNLP2010 のチュートリアルで開発者自身による解説があった。ただ、NLP の人間との間に問題意識にずれを感じた。これについては簡単な…

Bayesian Inference for PCFGs via Markov chain Monte Carlo

NLP

Bayesian Inference for PCFGs via Markov chain Monte Carlo (PDF).The Infinite Tree は、木を扱うものの依存木自体は与えていた。今回は木構造自体を教師なしで求める。気が狂いそうな論文。移動中に読んだ論文。着いてから調べると、案の定的確な解説が…

The Infinite Tree

NLP

The Infinite Tree (ACL 2007).依存木が与えられたとき、その木構造をうまく説明する品詞を Gibbs sampling により求める。簡潔で的確な解説が既にある。そっちを読んだほうが良い。sampling 系の話題。私がこれまで読んだ論文は系列データを扱ってきた。今…

cron on cygwin

cygwin で cron を動かそうとしてはまったのでメモ。はまった点は三つ。複合的なので症状と原因の整理はできていない。 cron が起動時にエラーを吐く。 crontab がすぐに反映されない。 通常と環境が違う。ssh-agent を反映させるのが面倒。 サービスの登録…

Migrating from Subversion to git

二つの作業のログ。(1) Subversion から git への移行。(2) 新たな git repository 二つを merge。やりたいこと。Subversion から git への移行。Subversion 時代は自分用のレポジトリを二つ使用。相互に関連しているので、移行を機に統合。Subversion から …

Life with Mac

計算機歴約15年ではじめての Mac。Apple 製品自体が QuickTime 以外では多分はじめて。しばらく放置していた MacBook Pro の設定を始める。現実逃避。まだ慣れない。余った予算で買ったわけだが、やっぱり自分で金を出さないと信者になりそうにない。今まで…

懐疑論者の勝利

移動中にどうでもいいことを思い出した。とりあえず書き出してみる。中二色全開の題をつけて。お題は Wikipedia。Wikipedia は編集方針として NPOV (neutral point of view) というのを掲げている。NPOV とは何か。Wikipedia が提示する説明はうんざりするほ…

NLP2010

NLP

NLP2010 に参加。聞き逃した発表も多い。当たり障りのない紹介を試みる。多分あとで増やす。予稿集は読まずに書いている。予稿集の入った DVD は貰ったが、持って行った B5 ノートに DVD ドライブはなかった。 大規模ラベルなしデータを利用した係り受け解析…

Empires of the Silk Road

Christopher I. Beckwith. 2009. Empires of the Silk Road.中央ユーラシアの通史。時間的にも空間的にも広すぎて、個人の手に負えるとは思えないテーマ。当然端折りまくり。重要な事件でもまったく言及されてなかったりする。Beckwith という人は言語の人だ…

日本語ネットが閉じているのは表記が原因か

本筋の検索の話。曰く、「ネットは島宇宙化しやすい。それをつなぐのは検索しかない。しかし日本語は文字が違う。オランダ語やインドネシア語なら同じアルファベットだから検索ワードで引っかかる。すると容赦なく外側に開かざるを得ない。」着眼点は面白い…

日本語の機械翻訳が悲惨な原因

NLP

ねとすた動画 2月号大反省会 その8を見ていたら、不意に NLP の話が出てきて反応してしまった。twitter に一言だけ書いたけど、残りは長くなったので雑記に投げ捨て。話の文脈。(twitter にように海外のサービスを使っていても) 結局日本で閉じていて、意外…

Markov Chain Monte Carlo with People

NLP

Sanborn, A. N., & Griffiths, T. L.: Markov Chain Monte Carlo with People. NIPS 2007. (pdf).NLP に分類したけど、論文に NLP の話は出てこない。探したら真面目に解説しているスライドがあった。こちらを見た方が良い。目的。人間の頭の中にある (と想…

Japanese POS tagset

NLP

英語を書くときに、日本語の文法用語の翻訳にいつも困る。そこで訳語の試案を書いてみるテスト。JUMAN の品詞体系。未完成。気が向いたら埋める。もちろん言葉をうつしただけでは通じないので適切な説明を添える必要がある。また、どうせ無理に訳しても通じ…

接続詞から見る日本語の付属語の独立性

日本語の接続詞はかなり変わっていて、付属語の独立性の高さを示しているのではないかという話。いい加減な議論。そして未整理。前提。すべての接続詞について議論するわけではない。ここで扱う接続詞は (1) 接続助詞や判定詞 (『基礎日本語文法』の区分) に…