NLP2012 - murawaki の雑記

広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。

1X 年ぶりに山陽新幹線に乗った。みずほとさくらを確認したかったがかなわず
せっかく広島に来たのに路面電車にも乗らずじまい
広島市立大学は山の中。でも山をトンネルでぶち抜いてあって中心部と直通。思ったほど不便ではない
現地の学生スタッフが働きまくりで感心
噂には聞いていたが、本当に中学生がいて焦る
発表件数が増えすぎ。今の体制はそろそろ限界
自分の発表とか座長とかで、面白そうな発表をかなり見逃した
内容的には二極化が止まらない。日本の縮図
闇の NTT 軍団が他を圧倒していた。日本の NLP は NTT 研究所が引っ張っていて、あとはどんぐりの背比べ。
お茶大の人たちが手を変え品を変え LDA の発表をしていたのが印象的

A1-2 ベイズ決定理論にもとづく階層Ｎグラムを用いた最適予測法と日本語入力支援技術への応用

○末永高志 (NTTデータ), 松嶋敏泰 (早大)

可変長 N-gram
- interpolation ではなく、最適な N を選択する
比較実験をやってくれないと何とも言えない

A1-3 伏字を含むテキストの分ち書き処理

○笠原要, 永田昌明 (NTT)

伏字はとりあえず「○」を含むもののみ
2ちゃんねるの書き込み 5K 文にアノテート
- さすが NTT!
点推定で単語分割
- 精度(?) 0.878。伏字を含むものに限定すると 0.679
「○」を含む形態素を CRF で分類
- 精度は全体をみると 0.934 だが、伏字に限定するとぼろぼろ
普通の学会発表では見たこともないような例文がスライドに並んでいたが、発表者は淡々と話し、聴衆も何事もなかったように聞いていた

A1-7 日本語学習者の作文の誤り訂正に向けた単語分割

○藤野拓也, 水本智也, 小町守 (NAIST), 永田昌明 (NTT), 松本裕治 (NAIST)

日本語学習者が書いた、誤りを含む文を単語分割
原文と添削文のアラインメントをとって、添削文の分割を原文に反映させて学習
副作用があって全体の精度はベースラインに負ける
(学習者による) 誤りを含む部分の認識では勝っている
例えば学習者が「じょうず」を「じょず」と書き誤っていたとする。「じょず」という単語を切り出してきたら目的が達成できたかというとそんなことはない。「じょうず」に訂正できてはじめて目的が達成される。どうせ誤りを訂正するには語彙が既知でないといけないはず。それなら最初から (書き損じ系の) 誤り訂正までを辞書ベースで joint で解いた方がいいのではないかという疑問が残る。

D1-8 テキストからの物理モデル生成に向けて

○横野光, 稲邑哲也 (NII)

例の東大入試の話で、これからがんばりますという報告
抽象的な図を画像認識で読み取るのは難しいのでテキストから攻める
- 人間は補助線が補助線だとなぜわかるのか

P1-28 感動を与える文の自動取得と分析

端大輝, ○村田真樹, 徳久雅人 (鳥取大)

アノテータ的には100文に7文は感動を与えるらしい。そんなもんかいな。

D2-8 言語的手がかりを用いた固有表現の二項関係知識の分類

○高久陽平, 鍜治伸裕, 吉永直樹, 豊田正史 (東大)

テキストが23億文あっても、時間幅半年で区切って、(複合名詞A, 関係を表す述語, 複合名詞B) の三つ組をとると、頻度4とかになってしまうらしい

F2-7 教師なしマッピングによる言語横断テキスト分類

○平尾努, 岩田具治, 永田昌明 (NTT)

見逃した
あとで読む

A3-1 極大部分文字列を使った twitter 言語判定

○中谷秀洋 (サイボウズ・ラボ)

手法自体は Twitter に依存していない (若干の前処理ぐらい)
Twitter のような短いテキストでも over 99% の高精度で言語判定できますということ
言語オタク臭あふれる面白そうなスライドの数々は時間の都合で結構飛ばされた
極大部分文字列は、訓練データから抽出して未知のテストデータに適用したときに何が起きるのか気になるが、少なくともこのタスクでは問題がないみたい
~~特徴量ベクトルをダンプして見たい~~ ソースとモデルが公開されていて、server.py というテストスクリプトが用意されており、簡単に遊べる (thanks, n_shuyo さん)

A3-6 ２ツイートを用いた対話モデルの構築

○東中竜一郎 (NTT), 川前徳章 (NTTコムウェア), 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人 (NTT)

対話のデータを作るのが大変だから Twitter のクロールデータを流用する
対話がほしいのに、in reply to でつながっているツイートは少ない
Tweet をクラスタリングして2ツイートをつなげ、HMM を作る
- 無限HMM
- クラスタリングは bag-of-words。それでいいのだろうか
  - 機能語を stop word に**しない**
同じ内容の ASRU2011 の論文には例が載っている

A3-extra Twitterにおける日本語処理について

藤井慶太（Twitter, Inc.　ソフトウェアエンジニア）

言語判定, 検索用にトークナイズ, トレンド向けにフレーズ抽出
やっつけ加減が予想をはるかに超えていた
- とはいえ、速度を要求されると大口を叩けない。
Gomoku を使っているとのこと。辞書については何も言ってなかったので、普通のやつだろう

E3-7 混合ディリクレ分布を用いた潜在クラス翻字生成モデル

○萩原正人, 関根聡 (楽天技研)

事前分布をおいてスムージング
潜在クラスの数は given (development set を使って決定)
分析したところ、大まかに言語に対応しているらしい
- 英語は複数クラスに分かれているが、由来を考えればむしろそれで良い
- イタリア語、スペイン語は似ていて一緒のクラスタに入ったりする

F3-5 オノマトペの音象徴を利用した評判分析

○五十嵐沢馬, 笹野遼平, 高村大也, 奥村学 (東工大)

オノマトペの極性判定
かな文字、音素、音声、IPA のカテゴリなどの特徴量をいろいろ試して分析
2値分類器の SVM を one-versus-rest で組み合わせるのが本当にいいのか

C4-4 単語単位の日本語係り受け解析

○Flannery, Daniel (京大), 宮尾祐介 (NII), Neubig, Graham, 森信介 (京大)

質疑の行方が楽しみだった発表
- 文節内係り受けの定義が恣意的。例えば接続助詞「が」をどう扱うかで違ってくる。
- 同じペアでも係ったり係らなかったりするから 2値分類は厳しい。ranking の方がいいのではないか。
数字だけでは何とも言えない。形態素単位の評価だと、隣に係るのばかりで精度を稼いでいるはず。文節単位の評価だと、形態素単位の係り受けという問題設定で良いと主張している部分が本当にうまくいっているのかわからない。

C4-5 シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用

○進藤裕之 (NTT), 宮尾祐介 (NII), 藤野昭典, 永田昌明 (NTT)

TSG でシンボルを細分化
- 細分化されたシンボルをどうやって導出するのかと思ったら、(Petrov+, 2005) の split-merge を用いる
- 本当はモデルが最適な細分化を自分で見つけてくれるとうれしいのだが、そこはまだ難しいか
F値 92.4 を達成!

F4-7 強化学習によるテキスト自動要約手法の提案

○梁成基 (東大), 阿辺川武 (NII)

あとで読む
質疑にあったように、agent の学習結果 V を分析してみたい

F4-8 ラグランジュ緩和による複数文書要約の高速求解

○西川仁, 平尾努, 牧野俊朗, 松尾義博 (NTT)

立て板に水ですばらしい
参照要約は意外と冗長らしい
あとで読む

F4-9 ナップサック問題と劣モジュラ関数最大化問題の合意解形成による要約

○安田宜仁, 西野正彬, 平尾努, 鈴木潤 (NTT)

漫談
双対分解だけで幸せになれるほど世の中は甘くないらしい
あとで読む

P3-15 日本語から伝統的モンゴル語への機械翻訳システムの試作とその機能語の翻訳処理

○竹嶌志起, Saren qimuge, 松本忠博 (岐阜大)

はやいところコードポイントとグリフの mapping を標準化しないと幸せになれない
横向きにレンダリングした結果を画像にして縦に表示しているとのこと
やっぱり語彙が300程度ではおもちゃの域をでない。ないないづくしの言語ペアで、どうにかしておもちゃを脱しようと思ったら、非専門家を動員しないと仕方がない。非専門家を動員しようと思ったら、資源整備の敷居を下げないと仕方がない。敷居を下げようと思ったら、ルールベースのシステムを作り込むのは厳しそう。

P3-20 英語学習者の産出語彙を評価する語彙の豊かさ指標の信頼性比較

○小島ますみ (岐女短)

語彙の使用頻度を使って学習者の語彙の豊かさを測る
以前提案した指標 S の頑健性を示した
使い勝手が良さそう

B5-3 印欧語話者の英文に内在する言語系統樹

○永田亮 (甲南大), Edward Whittaker (Inferret Limited)

見逃したが、面白いと評判
あとで読む

C5-2 漸進的な結合モデルによる中国語の形態素・依存構造解析

○羽鳥潤, 松崎拓也 (東大), 宮尾祐介 (NII), 辻井潤一 (MSRA)

見逃した
あとで読む

C5-3 Web上のひらがな交じり文に頑健な形態素解析

○工藤拓, 市川宙, David Talbot, 賀沢秀人 (Google)

見逃した
あとで読む

C5-5 半教師あり学習に基づく大規模語彙に対応した日本語単語分割

○萩原正人, 関根聡 (楽天技研)

見逃した
あとで読む

C5-6 拡張ラグランジュ緩和を用いた同時自然言語解析法

○鈴木潤, Kevin Duh, 永田昌明 (NTT)

見逃した
あとで読む

D5-2 極大部分文字列集合を用いたWebテキストの語義曖昧性解消

○三谷亮介, 小町守, 松本裕治 (NAIST), 隅田飛鳥 (KDDI研究所)

実験結果が芳しくないとしても、うまくいった例を見せてほしい
- 形態素解析結果の N-gram ならだめで、極大部分文字列ならうまくいく例
あらかじめ訓練データとテストデータの両方から極大部分文字列を抽出するという手続きは、実用上不便