豊橋技科大で開催されていた言語処理学会第17回年次大会 (NLP2011) の参加報告。
- 単なるメモ。発表の要約ではない。
- ポスターはほとんどメモってないので特に適当。
- 口頭発表は6並列でかぶりまくり。面白そうだけど聞き逃した発表が多い。
- NLP なのに (というと語弊があるが) 雲の上級の発表が散見された。
- あれだけ人がいたのに無線が安定して繋がっていたのはすごい。
F1-3 様相・条件・否定表現の言語学的分析に基づく確実性判断のためのアノテーション済みコーパスの構築
○川添愛 (津田塾大), 齊藤学 (中華大), 片岡喜代子 (九大), 崔栄殊 (一橋大), 戸次大介 (お茶大)
C1-4 Newton-CG法による条件付き確率場のバッチ学習
○坪井祐太, 海野裕也 (日本IBM), 鹿島久嗣, 岡崎直観 (東大)
- とにかく勾配を求めたら後は LBFGS という神ライブラリがなんとかしてくれると思っているぐらいの軟派なのでついていけない
- オンラインをかけてから最後をバッチ学習が、汚いけど実用上よさそうというコメント。そうは言っても切り替えのタイミングが難しいという回答。
C1-5 実時間ブートストラップ法
○江原遥 (東大), 関根聡 (楽天/NYU)
- あとで読む
- recall-precision curve がずっと出てくる。アルゴリズムの分析とは別に、実用上の目標がどの辺にあるのか知りたい。
P1-15 文外照応を含む文の検出による抽出型要約の品質向上
○西川仁, 長谷川隆明, 松尾義博, 菊井玄一郎 (NTT)
- antecedent がない要約結果が出てきたら困る。複数文をブロック化してしのぐ。
- 使っている素性がまだ限定的。
- bridging とか本当に計算機がわかるのだろうか。
- 要約を文選択問題に帰着している理由としては、文をいじって間違ったときのリスクが高すぎることが大きい
F2-6 Prefix/Patricia Trie の入れ子による辞書圧縮
○矢田晋 (フリー)
F2-7 機械翻訳手法に基づいた日本語の読み推定
○羽鳥潤 (東大), 鈴木久美 (MSR)
- SMTの枠組みで読み推定をやる
- 既知語と未知語が厳然と区別されいたのを明示的に区別せずに扱う
- 本気で読み推定しようとすると数字の読みとか面倒な処理もちゃんとやらないといけない
P3-3 英語論文表現データベースを用いた分野横断的ムーブ分析
○金丸敏幸, マスワナ紗矢子 (京大), 笹尾洋介 (ヴィクトリア大), 田地野彰 (京大)
- アノテータが52人!
- どうすれば管理できるのか気になる。
P3-14 局所的及び大域的文脈を併用した日本語同音異義語誤りの訂正
○角田孝昭, 乾孝司, 山本幹雄 (筑波大)
- 前後各 5-gram を使うということはどういうことか
- 単語の位置は本当にそんなに重要なのか。副詞が一つ入るだけでずれて別の n-gram 扱いされるわけで。
- WSD で window 内の単語を適合にぶちこんでいるのと比べてどうか。
- LDA は普通の LDA。
D3-1 階層的モデルを用いた機械翻訳のためのフレーズアライメント
○Neubig, Graham (京大/NICT), 渡辺太郎, 隅田英一郎 (NICT), 森信介, 河原達也 (京大)
- GIZA++ みたいに heuristics を使わず straightforward にフレーズ抽出までを一気に行うモデル
- DeNero の話しか知らなかったが、提案手法は木を考えている
- Bayesian で sampling による inference。
- NULL はできるだけつけたくない
A3-2 語彙概念構造による意味役割の形式化と複数役割の割り当て
○松林優一郎, 宮尾祐介, 相澤彰子 (NII)
- PropBank/VerbNet、FrameNet の話から LCS へ。
- 上手くいっているのか、上手くいきそうなのか、実際に見てみないとわからない
C3-3 Relation Adaptation: Domain Adaptation of Relation Extraction Systems
○ボレガラダヌシカ, 松尾豊, 石塚満 (東大)
- 2部グラフで lower dimensional mapping
- あとで読む。
- データが思っていたより小さい。
C3-4 WikipediaとWebテキストを利用した固有名の意味カテゴリの曖昧性解消
○村本英明, 鍜治伸裕, 吉永直樹, 喜連川優 (東大)
- カテゴリへの分類問題だけど、あらかじめ取りえる値の候補を絞り込んでおく。
- 定義文からの mapping は人手で記述。power law があるから、高頻度のものから書いていけば効率的。
- 実用上求められる精度はどれくらいか気になる。
C3-5 Token Boundaries or Named Entity Boundaries
○Han-Cheol Cho, Okazaki Naoaki, Jun'ichi Tsujii (東大)
- 英語のデータで tokenize されているけど、subtoken が NE だったりする。bio はカオス。
C3-6 自動構築した大規模訓練データを用いた固有名抽出
○宇佐美佑, Han-Cheol Cho, 岡崎直観, 辻井潤一 (東大)
C3-8 L1正則化特徴選択に基づく大規模データ・特徴集合に適した半教師あり学習
○鈴木潤, 磯崎秀樹, 永田昌明 (NTT)
- これも読まないと何とも
- 学習が二段階。最初に L1 で素性を減らしておく。
- 1段階目は大変だから MapReduce で並列化している。2段階目よりも短い時間で実現できている。
- L1 と L2 の組み合わせも。
F4-1 数理的手法を用いた日本語の系統に関する考察
○小橋昌明, 田中久美子 (東大)
- WALS の類型論のデータを単純にクラスタリングしたところで系統関係は明らかにならないという今更なつっこみで質疑時間を浪費。
- 同じ研究室に詳しい人がいるはずだが。
- Hal Daume III の実験だと結果に日本語がないので追試してほしい。自分でやれって?
- WALS のデータに松本克己の論文から抽出した特徴量を足している。足したことで違いがあるのか気になる。
C4-2 辞書と言語モデルの効率のよい圧縮とかな漢字変換への応用
○花岡俊行, 田畑悠介, 向井淳, 小松弘幸, 工藤拓 (Google)
- Google 日本語入力/Mozc をあまり追ってなかったが、いまは再変換をサポートしている
- 実装したのは要望が多いから。
- 読みを知りたいのは editor。必ずしも自分で入力したテキストではない。入力を覚えておけばいいって話でもない。それって読み推定。
- 再変換に reverse lookup が必要。
- 読みの trie だけでなく、単語の trie がある。
C4-4 非局所素性を利用したかな漢字変換
○高岡一馬, 内田佳孝, 松田寛 (ジャストシステム)
- 同音語判別。共起を素性に入れる。
- 非局所の素性が入る。ラティス上で別経路にする。
- 実験コードなので今は未知語は処理していない。
B5-2 条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析
○持橋大地, 鈴木潤, 藤野昭典 (NTT)
- スライドの中で突然言及されてびびる
- 生成モデルと識別モデルのバランス。
- そもそも活用絡みの分割は、生成モデルが好む分割と人が決めた分割基準が明らかに違う。足を引っ張り合うのではないかという懸念。
- そもそも CRF でほぼ分割できるわけで、生成モデルからの確率を入れたらどういう振る舞いにするのか論文だけ読んでいても分からない。
- 下手をしたら生成モデルは無視されて終わりじゃないかという心配。
- ループ内では NPYLM を先に学習してから CRF を学習している。逆にても大丈夫なのか。
- NPYLM の学習にタグ付きデータからのカウントを入れている。人が決めた分割基準に引きつける。
- 教師ありデータに対しても生成モデル側が正しく分割できるようになる。識別モデルは補助的になっていく。学習過程でΛは変動しまくりとのこと。
B5-6 ベイズ学習による木接合文法獲得
○進藤裕之, 藤野昭典, 永田昌明 (NTT)
- Tree Substitution Grammar について、モデル的に適当な大きさの木の断片を獲得する話はあった
- この時点で充分大変な話
- Tree Adjoining Grammar (のサブセット) に拡張
- 木の接合操作が加わる
- 導出過程の等価な変換が等価な部分が理解できてない。図と説明文がp.2とp.3で対応を取るのが大変。