murawaki の雑記

はてなグループから移転してきました

NLP2010

NLP2010 に参加。聞き逃した発表も多い。当たり障りのない紹介を試みる。多分あとで増やす。

予稿集は読まずに書いている。予稿集の入った DVD は貰ったが、持って行った B5 ノートに DVD ドライブはなかった。

大規模ラベルなしデータを利用した係り受け解析の性能検証

鈴木潤, 磯崎秀樹 (NTT)

  • 去年もそうだったけど、口頭発表だと細かい話をしない; この割り切りを見習いたい
    • 普通にスライドを作ると難しくて誰も分からないって話になりそうなところを分かった気にさせる魔術
  • 半教師ありの設定には2種類
    • 正解データが少ないときにそれなりの精度にあげる。
    • 正解データがそれなりにあって高精度なときにさらに精度を上げる ← こっちの話
  • 教師あり学習に素性を追加しているのと同じ
  • あとでちゃんと調べる

係り受け周辺確率に基づく文節間距離

○海野裕也, 坪井祐太 (日本IBM)

  • 係り受けやるのはいいけど、応用 (e.g. マイニング) でどう使う? → 文節同士の木の上の距離を使う
  • 1-best の解析だと間違ったときに痛い → 期待値をとって均す
  • 計算が爆発 → 近似
  • 質疑: 非交差条件を使っているはずが、近似により積の項には交差するものも含まれてしまう
  • あとでちゃんと読む

2ちゃんねる解析用の形態素解析器の作成

○早藤健, 建石由佳 (工学院大)

  • ポスターは PC にメモしながら聞けないので、ものすごい勢いで忘れて思い出せない
  • 人手で2ちゃん用語を登録
  • 生起コストの設定は職人技
  • どの程度の登録でどの程度精度が向上するかの見通しがないと作業者がつらそう
  • ちゃんと辞書を作るのは大切
  • 需要があるはずなので公開してほしい

証明木作成プログラムを用いたCCG統語導出の実装

○尾崎有梨, 櫻井加奈子, 浅井健一, 戸次大介 (お茶大)

  • 前から思っていたけど CCG 面白そう

学校非公式サイトにおける有害情報検出

○松葉達明 (三重大), 桝井文人 (北見工大), 河合敦夫, 井須尚紀 (三重大)

  • 伏字などを含むテキストをそのまま形態素解析して特徴抽出していていいのか

名詞における言語化される意味

○保田祥 (神戸大)

  • 意味の話は扱いたいけど扱えてない; 当分計算機が扱えなそうな話は、文系の人の分析を聞くに限る
  • 後で思ったこと: 辞書のように概念を過不足なく説明しようとする時と、普通の文章で個々の具体物を描写する時では、言語化する特徴が違ったりしないのか

逐語訳によるウイグル語-日本語機械翻訳の研究

○マヒムットジャンママットジャン, 岡本紘昭 (朝日大)

  • 人称の語尾をどう扱ったらいいのか前から気になっている
  • 今回の発表では日本語に訳すときに情報を落としている
  • それは分かっているから goal としてはどうすべきなのかを知りたかったが挫折。言語の壁を感じる

行列分解による多クラス分類とその応用

○岡野原大輔 (東大), 辻井潤一 (東大/Manchester大/NaCTeM)

  • 聞き逃したが面白いことが保証されている
  • とりあえず p.749 の V \in R^{k \times m}V \in R^{k \times r} の誤りだと思う。
  • ナイーブに実装すると、次元圧縮された行列を保持するのが大変そう
  • 更新式がこの形でよい理由がわからない

LDAの文脈長最適化によるトピック依存N-gramの高精度化

○中村明 (三洋電機), 速水悟 (岐阜大)

  • 聞き逃したが面白いかもしれない

モダリティ、真偽情報、価値情報を統合した拡張モダリティ解析

○江口萌, 松吉俊, 佐尾ちとせ (NAIST), 乾健太郎 (東北大/NAIST), 松本裕治 (NAIST)

  • 聞き逃したがきっと面白い

点推定と能動学習を用いた自動単語分割器の分野適応

○Graham Neubig, 中田陽介, 森信介 (京大)

  • 聞き逃したがきっと面白い

shWiiFit Reduce Dependency Parsing

○浅原正幸 (NAIST)

  • garden path sentence という用語は恥ずかしながら初耳
    • 前から順に読んでいくと解釈を間違えやすい文
    • 人間が間違えるぐらいだから、shift-reduce parser も間違えるよね
  • ガ格は sentence end attachment bias
  • ヲ格は nearer attachment bias
  • WiiFit を使ったゲームの細かいところは分からず仕舞い
  • Control, Early Boundary, Late Boundary の3種類の文の解析実験が素晴らしい
    • JUMAN/KNP, Mecab/Cabocha, Shift-Reduce, Tournament model の比較
    • 現在の Cabocha は shift-reduce じゃないかという sassano さんのツッコミ
    • せっかく重たい辞書を使って格解析をやってるのだから、KNP もこういう詳細な分析が必要

Relation between the word order characteristics and suicide/homicide rates

○Terumasa Ehara (山梨英和大)

  • 表題により各所で話題騒然
  • WALS の類型論のデータを使う
  • 素朴な疑問: 語順のような類型論的特徴は言語連合の影響が強い。言語連合は地理的に近さによる。そうすると、地理的近さによる非言語的影響が考えられる。仮に相関があっても因果関係とは言えない?
  • 素朴な解決策: 類型論的に近いけど地理的に無関係な言語同士で共通の特徴が見つかるか。

Web文書にも対応できる日本語異表記の認定基準

○黒田航, 風間淳一, 村田真樹, 鳥澤健太郎 (NICT)

  • 需要がありまくる話
  • きっと後で読み返すことになる

CCGによる日本語文法記述の進捗と展望 ~活用体系・統語構造・意味合成~

○戸次大介 (お茶大)

  • 理論言語学自然言語処理の乖離
  • CCG は toy grammar ではなくなっていると主張
    • 日本語の文法!
  • λ計算楽しい
  • 本の宣伝; 購入予定
  • TODO: 等位接続構文、かき混ぜ文、分裂文、遊離数量詞
  • じゃあ何の役に立つのかという質問。答えに質問者が納得していない様子だったのが印象的