広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。
- 1X 年ぶりに山陽新幹線に乗った。みずほとさくらを確認したかったがかなわず
- せっかく広島に来たのに路面電車にも乗らずじまい
- 広島市立大学は山の中。でも山をトンネルでぶち抜いてあって中心部と直通。思ったほど不便ではない
- 現地の学生スタッフが働きまくりで感心
- 噂には聞いていたが、本当に中学生がいて焦る
- 発表件数が増えすぎ。今の体制はそろそろ限界
- 自分の発表とか座長とかで、面白そうな発表をかなり見逃した
- 内容的には二極化が止まらない。日本の縮図
- 闇の NTT 軍団が他を圧倒していた。日本の NLP は NTT 研究所が引っ張っていて、あとはどんぐりの背比べ。
- お茶大の人たちが手を変え品を変え LDA の発表をしていたのが印象的
A1-2 ベイズ決定理論にもとづく階層Nグラムを用いた最適予測法と日本語入力支援技術への応用
- 可変長 N-gram
- interpolation ではなく、最適な N を選択する
- 比較実験をやってくれないと何とも言えない
A1-3 伏字を含むテキストの分ち書き処理
○笠原要, 永田昌明 (NTT)
A1-7 日本語学習者の作文の誤り訂正に向けた単語分割
○藤野拓也, 水本智也, 小町守 (NAIST), 永田昌明 (NTT), 松本裕治 (NAIST)
- 日本語学習者が書いた、誤りを含む文を単語分割
- 原文と添削文のアラインメントをとって、添削文の分割を原文に反映させて学習
- 副作用があって全体の精度はベースラインに負ける
- (学習者による) 誤りを含む部分の認識では勝っている
- 例えば学習者が「じょうず」を「じょず」と書き誤っていたとする。「じょず」という単語を切り出してきたら目的が達成できたかというとそんなことはない。「じょうず」に訂正できてはじめて目的が達成される。どうせ誤りを訂正するには語彙が既知でないといけないはず。それなら最初から (書き損じ系の) 誤り訂正までを辞書ベースで joint で解いた方がいいのではないかという疑問が残る。
D1-8 テキストからの物理モデル生成に向けて
○横野光, 稲邑哲也 (NII)
- 例の東大入試の話で、これからがんばりますという報告
- 抽象的な図を画像認識で読み取るのは難しいのでテキストから攻める
- 人間は補助線が補助線だとなぜわかるのか
D2-8 言語的手がかりを用いた固有表現の二項関係知識の分類
○高久陽平, 鍜治伸裕, 吉永直樹, 豊田正史 (東大)
- テキストが23億文あっても、時間幅半年で区切って、(複合名詞A, 関係を表す述語, 複合名詞B) の三つ組をとると、頻度4とかになってしまうらしい
A3-1 極大部分文字列を使った twitter 言語判定
○中谷秀洋 (サイボウズ・ラボ)
- 手法自体は Twitter に依存していない (若干の前処理ぐらい)
- Twitter のような短いテキストでも over 99% の高精度で言語判定できますということ
- 言語オタク臭あふれる面白そうなスライドの数々は時間の都合で結構飛ばされた
- 極大部分文字列は、訓練データから抽出して未知のテストデータに適用したときに何が起きるのか気になるが、少なくともこのタスクでは問題がないみたい
特徴量ベクトルをダンプして見たいソースとモデルが公開されていて、server.py というテストスクリプトが用意されており、簡単に遊べる (thanks, n_shuyo さん)
A3-6 2ツイートを用いた対話モデルの構築
○東中竜一郎 (NTT), 川前徳章 (NTTコムウェア), 貞光九月, 南泰浩, 目黒豊美, 堂坂浩二, 稲垣博人 (NTT)
- 対話のデータを作るのが大変だから Twitter のクロールデータを流用する
- 対話がほしいのに、in reply to でつながっているツイートは少ない
- Tweet をクラスタリングして2ツイートをつなげ、HMM を作る
- 無限HMM
- クラスタリングは bag-of-words。それでいいのだろうか
- 機能語を stop word に**しない**
- 同じ内容の ASRU2011 の論文には例が載っている
A3-extra Twitterにおける日本語処理について
藤井慶太(Twitter, Inc. ソフトウェアエンジニア)
- 言語判定, 検索用にトークナイズ, トレンド向けにフレーズ抽出
- やっつけ加減が予想をはるかに超えていた
- とはいえ、速度を要求されると大口を叩けない。
- Gomoku を使っているとのこと。辞書については何も言ってなかったので、普通のやつだろう
E3-7 混合ディリクレ分布を用いた潜在クラス翻字生成モデル
○萩原正人, 関根聡 (楽天技研)
C4-4 単語単位の日本語係り受け解析
○Flannery, Daniel (京大), 宮尾祐介 (NII), Neubig, Graham, 森信介 (京大)
C4-5 シンボル細分化を適用した階層Pitman-Yor過程に基づく木置換文法獲得法と構文解析への応用
○進藤裕之 (NTT), 宮尾祐介 (NII), 藤野昭典, 永田昌明 (NTT)
- TSG でシンボルを細分化
- 細分化されたシンボルをどうやって導出するのかと思ったら、(Petrov+, 2005) の split-merge を用いる
- 本当はモデルが最適な細分化を自分で見つけてくれるとうれしいのだが、そこはまだ難しいか
- F値 92.4 を達成!
F4-9 ナップサック問題と劣モジュラ関数最大化問題の合意解形成による要約
○安田宜仁, 西野正彬, 平尾努, 鈴木潤 (NTT)
- 漫談
- 双対分解だけで幸せになれるほど世の中は甘くないらしい
- あとで読む
P3-15 日本語から伝統的モンゴル語への機械翻訳システムの試作とその機能語の翻訳処理
○竹嶌志起, Saren qimuge, 松本忠博 (岐阜大)
- はやいところコードポイントとグリフの mapping を標準化しないと幸せになれない
- 横向きにレンダリングした結果を画像にして縦に表示しているとのこと
- やっぱり語彙が300程度ではおもちゃの域をでない。ないないづくしの言語ペアで、どうにかしておもちゃを脱しようと思ったら、非専門家を動員しないと仕方がない。非専門家を動員しようと思ったら、資源整備の敷居を下げないと仕方がない。敷居を下げようと思ったら、ルールベースのシステムを作り込むのは厳しそう。
P3-20 英語学習者の産出語彙を評価する語彙の豊かさ指標の信頼性比較
○小島ますみ (岐女短)
- 語彙の使用頻度を使って学習者の語彙の豊かさを測る
- 以前提案した指標 S の頑健性を示した
- 使い勝手が良さそう