murawaki の雑記

はてなグループから移転してきました

NLP2011

豊橋技科大で開催されていた言語処理学会第17回年次大会 (NLP2011) の参加報告。

  • 単なるメモ。発表の要約ではない。
    • ポスターはほとんどメモってないので特に適当。
  • 口頭発表は6並列でかぶりまくり。面白そうだけど聞き逃した発表が多い。
  • NLP なのに (というと語弊があるが) 雲の上級の発表が散見された。
  • あれだけ人がいたのに無線が安定して繋がっていたのはすごい。

C1-2 全部分文字列のクラスタリングとその応用

○岡野原大輔 (PFI)

  • クラスタリングアルゴリズム自体は古典的。
  • アルゴリズムとデータ構造を頑張っていて、あり得ない規模のデータをあり得ないぐらい小さな計算量、データ量で実現。
  • 以前の発表との差分を把握できていない。
  • 乱択化による特異値分解はかなりの精度。いろんな応用ができるはず。
  • 部分文字列を扱う限り、人が見て容認できない文字列が必ず出てくるはず。ゴミはゴミクラスタにかたまるとのこと。

F1-3 様相・条件・否定表現の言語学的分析に基づく確実性判断のためのアノテーション済みコーパスの構築

○川添愛 (津田塾大), 齊藤学 (中華大), 片岡喜代子 (九大), 崔栄殊 (一橋大), 戸次大介 (お茶大)

  • 命題の確実性判断。手がかり表現とそのスコープをアノテーション
  • スライドに「イマココ」とか
  • 門外漢的にはどう扱えばいいのか分からないので、データを整理して提示してほしいわけだが、それをやってくれていてありがたい。
    • 確実性判断の分類。最上位は書き手にとって命題の真偽が既知か未知か。
  • 個人的な興味
    • 手がかり表現には内容語が含まれることがあるわけで、少量のコーパスへのアノテーションで網羅できるのか。
    • 網羅できないとしたら、未知の手がかり表現を計算機に獲得させられるか。
    • そういうわけで、現状でコーパス量と網羅率の関係はどうなっているか。

C1-4 Newton-CG法による条件付き確率場のバッチ学習

○坪井祐太, 海野裕也 (日本IBM), 鹿島久嗣, 岡崎直観 (東大)

  • とにかく勾配を求めたら後は LBFGS という神ライブラリがなんとかしてくれると思っているぐらいの軟派なのでついていけない
  • オンラインをかけてから最後をバッチ学習が、汚いけど実用上よさそうというコメント。そうは言っても切り替えのタイミングが難しいという回答。

C1-5 実時間ブートストラップ法

○江原遥 (東大), 関根聡 (楽天/NYU)

  • あとで読む
  • recall-precision curve がずっと出てくる。アルゴリズムの分析とは別に、実用上の目標がどの辺にあるのか知りたい。

P1-15 文外照応を含む文の検出による抽出型要約の品質向上

○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎 (NTT)

  • antecedent がない要約結果が出てきたら困る。複数文をブロック化してしのぐ。
  • 使っている素性がまだ限定的。
  • bridging とか本当に計算機がわかるのだろうか。
  • 要約を文選択問題に帰着している理由としては、文をいじって間違ったときのリスクが高すぎることが大きい

P2-7 日本語格解析において問題となり得る諸現象の定量的分析

○花岡洋輝, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (東大)

  • あとで読む

P2-27 日本語からモンゴル語への機械翻訳における格助詞の対応について

○サレンチモグ, 竹嶌志起, 松本忠博 (岐阜大)

  • 現在の中国領のモンゴル人はキリル文字をほとんど知らないとのこと。中ソ対立以前は結構使われていたと本にはあるけど。
  • Unicode で encode しているとのこと。聞いてみるとグリフがそうなるように適当に入力しているとのこと。やっぱりはやく標準化しないとまずい。

F2-6 Prefix/Patricia Trie の入れ子による辞書圧縮

○矢田晋 (フリー)

  • marisa の紹介。
  • key-value も key に value を conat したものを key とすれば扱える。common prefix search で取り出せば良い。
  • 構文片みたいに linear じゃないデータを効率的に検索したいという需要はある、
  • やっぱり constant でないけど、そこそこの性能を持つ trie が欲しい。

F2-7 機械翻訳手法に基づいた日本語の読み推定

○羽鳥潤 (東大), 鈴木久美 (MSR)

  • SMTの枠組みで読み推定をやる
  • 既知語と未知語が厳然と区別されいたのを明示的に区別せずに扱う
  • 本気で読み推定しようとすると数字の読みとか面倒な処理もちゃんとやらないといけない

招待講演2: 実務翻訳の現状と未来

田中千鶴香 氏(日本翻訳連盟理事・日本語標準スタイルガイド検討委員長)

  • 翻訳の話だと思っていたら、日本語の表記の規範の話に

P3-3 英語論文表現データベースを用いた分野横断的ムーブ分析

○金丸敏幸, マスワナ紗矢子 (京大), 笹尾洋介 (ヴィクトリア大), 田地野彰 (京大)

  • アノテータが52人!
    • どうすれば管理できるのか気になる。

P3-14 局所的及び大域的文脈を併用した日本語同音異義語誤りの訂正

○角田孝昭, 乾孝司, 山本幹雄 (筑波大)

  • 前後各 5-gram を使うということはどういうことか
    • 単語の位置は本当にそんなに重要なのか。副詞が一つ入るだけでずれて別の n-gram 扱いされるわけで。
    • WSD で window 内の単語を適合にぶちこんでいるのと比べてどうか。
  • LDA は普通の LDA。

P3-18 『現代日本語書き言葉均衡コーパス』に基づくオノマトペの分析—品詞性の検討を中心に—

○宮内佐夜香, 小木曽智信, 小磯花絵, 小椋秀樹 (国語研)

  • 実用性は別にして、オノマトペは本当になんとかしたい
    • JUMAN/京都テキストコーパスは分割基準から見直す必要があるはず
  • 係り受けまで考慮しなくても、助詞との共起だけである程度分類できそうな感触

D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント

○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大)

  • GIZA++ みたいに heuristics を使わず straightforward にフレーズ抽出までを一気に行うモデル
  • DeNero の話しか知らなかったが、提案手法は木を考えている
  • Bayesian で sampling による inference。
  • NULL はできるだけつけたくない

A3-2 語彙概念構造による意味役割の形式化と複数役割の割り当て

○松林優一郎, 宮尾祐介, 相澤彰子 (NII)

  • PropBank/VerbNet、FrameNet の話から LCS へ。
  • 上手くいっているのか、上手くいきそうなのか、実際に見てみないとわからない

C3-3 Relation Adaptation: Domain Adaptation of Relation Extraction Systems

○ボレガラダヌシカ, 松尾豊, 石塚満 (東大)

  • 2部グラフで lower dimensional mapping
  • あとで読む。
  • データが思っていたより小さい。

C3-4 WikipediaとWebテキストを利用した固有名の意味カテゴリの曖昧性解消

○村本英明, 鍜治伸裕, 吉永直樹, 喜連川優 (東大)

  • カテゴリへの分類問題だけど、あらかじめ取りえる値の候補を絞り込んでおく。
  • 定義文からの mapping は人手で記述。power law があるから、高頻度のものから書いていけば効率的。
  • 実用上求められる精度はどれくらいか気になる。

C3-5 Token Boundaries or Named Entity Boundaries

○Han-Cheol Cho, Okazaki Naoaki, Jun'ichi Tsujii (東大)

  • 英語のデータで tokenize されているけど、subtoken が NE だったりする。bio はカオス。

C3-6 自動構築した大規模訓練データを用いた固有名抽出

○宇佐美佑, Han-Cheol Cho, 岡崎直観, 辻井潤一 (東大)

  • NE の (不完全な) 辞書と、生テキストだけがある状態から tagger を作りたいという設定はよくある
  • MEDLINE は抄録コーパスなので略語が多い (e.g. AM)
    • 辞書項目の文字列マッチングだとノイズだらけ
    • mozc の言語モデルは最長一致で適当にやっているらしいけど。
  • 辞書項目に reference の text への参照があるので、そこから等位構造解析などで使えるデータを広げる。

C3-8 L1正則化特徴選択に基づく大規模データ・特徴集合に適した半教師あり学習

鈴木潤, 磯崎秀樹, 永田昌明 (NTT)

  • これも読まないと何とも
  • 学習が二段階。最初に L1 で素性を減らしておく。
  • 1段階目は大変だから MapReduce で並列化している。2段階目よりも短い時間で実現できている。
  • L1 と L2 の組み合わせも。

F4-1 数理的手法を用いた日本語の系統に関する考察

○小橋昌明, 田中久美子 (東大)

  • WALS の類型論のデータを単純にクラスタリングしたところで系統関係は明らかにならないという今更なつっこみで質疑時間を浪費。
    • 同じ研究室に詳しい人がいるはずだが。
  • Hal Daume III の実験だと結果に日本語がないので追試してほしい。自分でやれって?
  • WALS のデータに松本克己の論文から抽出した特徴量を足している。足したことで違いがあるのか気になる。

C4-2 辞書と言語モデルの効率のよい圧縮とかな漢字変換への応用

○花岡俊行, 田畑悠介, 向井淳, 小松弘幸, 工藤拓 (Google)

  • Google 日本語入力/Mozc をあまり追ってなかったが、いまは再変換をサポートしている
    • 実装したのは要望が多いから。
    • 読みを知りたいのは editor。必ずしも自分で入力したテキストではない。入力を覚えておけばいいって話でもない。それって読み推定。
  • 再変換に reverse lookup が必要。
    • 読みの trie だけでなく、単語の trie がある。

C4-3 統計的かな漢字変換システム Mozc

○工藤拓, 小松弘幸, 花岡俊行, 向井淳, 田畑悠介 (Google)

  • BLUE ではユーザの満足度がまったく測れない!
  • 言語モデルは (品詞ベースの) class bigram。
    • 同音異義語とかは本質的に問題。
    • 複合語化しまくってしのぐ。
      • かな漢だと segmentation は重要じゃないから。
  • ユーザ学習の評価はなくて今は直観で。

C4-4 非局所素性を利用したかな漢字変換

○高岡一馬, 内田佳孝, 松田寛 (ジャストシステム)

  • 同音語判別。共起を素性に入れる。
  • 非局所の素性が入る。ラティス上で別経路にする。
  • 実験コードなので今は未知語は処理していない。

C4-6 日本語かな漢字変換における識別モデルの適用とその考察

○徳永拓之, 岡野原大輔 (PFI)

  • 京都テキストコーパスの読みはまじめに付与してないから、かな漢字変換の実験に使うのはまずい。
  • 素性は工夫の余地があるはず。

B5-2 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析

○持橋大地, 鈴木潤, 藤野昭典 (NTT)

  • スライドの中で突然言及されてびびる
  • 生成モデルと識別モデルのバランス。
    • そもそも活用絡みの分割は、生成モデルが好む分割と人が決めた分割基準が明らかに違う。足を引っ張り合うのではないかという懸念。
    • そもそも CRF でほぼ分割できるわけで、生成モデルからの確率を入れたらどういう振る舞いにするのか論文だけ読んでいても分からない。
    • 下手をしたら生成モデルは無視されて終わりじゃないかという心配。
      • ループ内では NPYLM を先に学習してから CRF を学習している。逆にても大丈夫なのか。
    • NPYLM の学習にタグ付きデータからのカウントを入れている。人が決めた分割基準に引きつける。
    • 教師ありデータに対しても生成モデル側が正しく分割できるようになる。識別モデルは補助的になっていく。学習過程でΛは変動しまくりとのこと。

B5-4 木構造に基づく決定的係り受け解析

○北川浩太郎, 田中久美子 (東大)

  • あとで読む。

B5-6 ベイズ学習による木接合文法獲得

○進藤裕之, 藤野昭典, 永田昌明 (NTT)

  • Tree Substitution Grammar について、モデル的に適当な大きさの木の断片を獲得する話はあった
    • この時点で充分大変な話
  • Tree Adjoining Grammar (のサブセット) に拡張
    • 木の接合操作が加わる
  • 導出過程の等価な変換が等価な部分が理解できてない。図と説明文がp.2とp.3で対応を取るのが大変。