NLP2010 に参加。聞き逃した発表も多い。当たり障りのない紹介を試みる。多分あとで増やす。
予稿集は読まずに書いている。予稿集の入った DVD は貰ったが、持って行った B5 ノートに DVD ドライブはなかった。
大規模ラベルなしデータを利用した係り受け解析の性能検証
○鈴木潤, 磯崎秀樹 (NTT)
- 去年もそうだったけど、口頭発表だと細かい話をしない; この割り切りを見習いたい
- 普通にスライドを作ると難しくて誰も分からないって話になりそうなところを分かった気にさせる魔術
- 半教師ありの設定には2種類
- 正解データが少ないときにそれなりの精度にあげる。
- 正解データがそれなりにあって高精度なときにさらに精度を上げる ← こっちの話
- 教師あり学習に素性を追加しているのと同じ
- あとでちゃんと調べる
係り受け周辺確率に基づく文節間距離
○海野裕也, 坪井祐太 (日本IBM)
- 係り受けやるのはいいけど、応用 (e.g. マイニング) でどう使う? → 文節同士の木の上の距離を使う
- 1-best の解析だと間違ったときに痛い → 期待値をとって均す
- 計算が爆発 → 近似
- 質疑: 非交差条件を使っているはずが、近似により積の項には交差するものも含まれてしまう
- あとでちゃんと読む
2ちゃんねる解析用の形態素解析器の作成
○早藤健, 建石由佳 (工学院大)
- ポスターは PC にメモしながら聞けないので、ものすごい勢いで忘れて思い出せない
- 人手で2ちゃん用語を登録
- 生起コストの設定は職人技
- どの程度の登録でどの程度精度が向上するかの見通しがないと作業者がつらそう
- ちゃんと辞書を作るのは大切
- 需要があるはずなので公開してほしい
名詞における言語化される意味
○保田祥 (神戸大)
- 意味の話は扱いたいけど扱えてない; 当分計算機が扱えなそうな話は、文系の人の分析を聞くに限る
- 後で思ったこと: 辞書のように概念を過不足なく説明しようとする時と、普通の文章で個々の具体物を描写する時では、言語化する特徴が違ったりしないのか
逐語訳によるウイグル語-日本語機械翻訳の研究
○マヒムットジャンママットジャン, 岡本紘昭 (朝日大)
- 人称の語尾をどう扱ったらいいのか前から気になっている
- 今回の発表では日本語に訳すときに情報を落としている
- それは分かっているから goal としてはどうすべきなのかを知りたかったが挫折。言語の壁を感じる
行列分解による多クラス分類とその応用
○岡野原大輔 (東大), 辻井潤一 (東大/Manchester大/NaCTeM)
- 聞き逃したが面白いことが保証されている
- とりあえず p.749 の は の誤りだと思う。
- ナイーブに実装すると、次元圧縮された行列を保持するのが大変そう
- 更新式がこの形でよい理由がわからない
点推定と能動学習を用いた自動単語分割器の分野適応
○Graham Neubig, 中田陽介, 森信介 (京大)
- 聞き逃したがきっと面白い
shWiiFit Reduce Dependency Parsing
○浅原正幸 (NAIST)
- garden path sentence という用語は恥ずかしながら初耳
- 前から順に読んでいくと解釈を間違えやすい文
- 人間が間違えるぐらいだから、shift-reduce parser も間違えるよね
- ガ格は sentence end attachment bias
- ヲ格は nearer attachment bias
- WiiFit を使ったゲームの細かいところは分からず仕舞い
- Control, Early Boundary, Late Boundary の3種類の文の解析実験が素晴らしい
- JUMAN/KNP, Mecab/Cabocha, Shift-Reduce, Tournament model の比較
- 現在の Cabocha は shift-reduce じゃないかという sassano さんのツッコミ
- せっかく重たい辞書を使って格解析をやってるのだから、KNP もこういう詳細な分析が必要
Relation between the word order characteristics and suicide/homicide rates
○Terumasa Ehara (山梨英和大)
- 表題により各所で話題騒然
- WALS の類型論のデータを使う
- 素朴な疑問: 語順のような類型論的特徴は言語連合の影響が強い。言語連合は地理的に近さによる。そうすると、地理的近さによる非言語的影響が考えられる。仮に相関があっても因果関係とは言えない?
- 素朴な解決策: 類型論的に近いけど地理的に無関係な言語同士で共通の特徴が見つかるか。