murawaki の雑記

はてなグループから移転してきました

NLP

再び語について

NLP

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説…

Universal Dependencies と類型論

NLP

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。Universal Dependencies (UD) は通言語的に一…

節か否か

NLP

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier) と acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (claus…

「語」とはなにか・再考

宮岡 伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそ…

アノテーション一致度

NLP

アノテーション一致度 (inter-annotator agreement) を測りたいけど、κ が使えない場合どうするか。想定しているタスクは以下の通り。テキストからいくつか chunk を抽出し、それぞれにラベルを付与する。chunk の大きさはバラバラだし、テキストの一部しか…

STRUCTURE と ADMIXTURE の混合分布モデル

NLP

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。 参考までに caption も引用。 (A) Representative estimate of population structure for 1,384 individuals from …

JUMAN メモ

NLP

黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。以前は研究室のページに置いていたもの。長く放置していて内容的に古くなっていたが、最近になって突然晒された。*1文書に日付を入れていなかったのが敗因。この機会に雑記に移すことにし…

意味の意味が分からない

NLP

表題は某日記から拝借。計算機に自然言語を扱わせるうえで、意味を理解させるというのが大きな目標。しかしこの目標は漠然としている。何が達成できたら意味を理解したことになるのか分からない。いろんな人がいろんな方向から攻めている。適当に洗い出す。…

Randomized Pruning

NLP

Alexandre Bouchard-Côté et al. Randomized Pruning: Efficiently Calculating Expectations in Large Dynamic Programs. NIPS 2009. (pdf)時間があいてしまったが、前回と同じ話題。sampling 時に pruning を行う手法。前回はいずれも slice sampling に基…

Slice Sampling for Pruning

NLP

Markov chain Monte Carlo による sampling 時に pruning したい。そのために slice sampling を使う手法。何年遅れて人のあと追いかけてるんだって話だが、細かい話題がいろいろあるので書き出してみる。 slice sampling slice sampling 自体は (Neal, 2003…

Automated reconstruction of ancient languages using probabilistic models of sound change

Bouchard-Côté et al. Automated reconstruction of ancient languages using probabilistic models of sound change, PNAS, 2013.言語系統樹と、系統樹の葉にあたる現代語が持つ語彙の語形を与えたとき、祖語の語形を自動推定する。オーストロネシア語族に…

Construction of Dependent Dirichlet Processes based on Poisson Processes

NLP

Dahua Lin, Eric Grimson, John Fisher. Construction of Dependent Dirichlet Processes based on Poisson Processes, NIPS 2010 (PDF, supplementary, videolectures, code).NIPS 2010 の best student paper。理解度は 2 割ぐらい。videolectures にあが…

NLP2012

NLP

広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。 1X 年ぶりに山陽新幹線に乗った。みずほとさくらを確認したかったがかなわず せっかく広島に来たのに路面電車にも乗らずじまい 広島市立大学は山の中。でも山をトンネルで…

Turkish Dependency Parsing

NLP

Gülşen Eryiğit, Joakim Nivre, Kemal Oflazer: Turkish Dependency Parsing, Computational Linguistics, Vol. 34, No. 3, 2008 (PDF).昔論文に関連研究として紹介するためにトルコ語の解析を調べたが、構文解析まわりの議論は没にした。ここに投げ捨て。興…

Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models

NLP

Mark Johnson, Thomas L. Griffiths and Sharon Goldwater (2007) Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models, NIPS 19.最近雑記を書いていない。なぜか。全然新しことをやってないから。この論文も 2006/7…

A Bayesian Mixture Model for PoS Induction Using Multiple Features

NLP

Christos Christodoulopoulos*1; Sharon Goldwater; Mark Steedman: A Bayesian Mixture Model for PoS Induction Using Multiple Features (EMNLP2011) (PDF)(slides).教師なし POS induction。HMM でなく mixture model を使うのが特徴。教師なし POS indu…

NLP2011

NLP

豊橋技科大で開催されていた言語処理学会第17回年次大会 (NLP2011) の参加報告。 単なるメモ。発表の要約ではない。 ポスターはほとんどメモってないので特に適当。 口頭発表は6並列でかぶりまくり。面白そうだけど聞き逃した発表が多い。 NLP なのに (とい…

Dated Corpus (Actually N-grams)

NLP

Baidu ブログ・掲示板時間軸コーパス*1を使って新語 (新用法) の出現時期を求めるテスト。結果は芳しくないけど。時系列コーパスといっても、期間は10年程度。通時言語学の一般的な想定よりもオーダーレベルで短い。時系列コーパスといえば東大喜連川研。定…

Parsing Wikitext

NLP

Wikipedia のデータを自然言語処理で使う。そのために wiki format のテキストを整形して、用途に応じたデータを抽出する方法。2012年2月18日追記: この情報は古くなっています。今風のスマートなやり方については、こちらのブログ記事を参照してください。…

Implementing distributed Perceptron training with GXP make

NLP

Distributed Training Strategies for the Structured Perceptron を GXP make で実装してみたものの、結局使っていない。ここでさらしてみる。まず Structured Perceptron の distributed training を手短に。online learning では、訓練データを一つずつ読…

Unsupervised phonemic Chinese word segmentation using Adaptor Grammars

NLP

Mark Johnson; Katherine Demuth: Unsupervised phonemic Chinese word segmentation using Adaptor Grammars (COLING 2010) (PDF).単体の論文としては微妙。既存の手法を少し手直しして新しいデータに適用しましたという話。結果は微妙で考察も浅い。しかし…

単語の zero-gram 確率

NLP

単語 w を生成する zero-gram 確率をどうやってモデル化しましょうかという話。想定する用途は単語分割。単語分割では、長さの違う単語候補同士を比較して、どっちがそれらしいか推定する。一様分布を仮定するといかにも都合が悪そう。そこで、単語が構成要…

Type-based MCMC

NLP

Percy Liang, Michael I. Jordan, Dan Klein: Type-based MCMC (PDF).スライドが神。そっちを見ればやりたいことはわかる。自分用のメモ。間違っていたら指摘してほしい。 3.3 Prior いきなり事前分布として Dirichlet distribution ではなく Dirichlet proc…

gxp for NLPers

gxp は並列処理用のツール。これを使って NLP で並列処理を行ってきた。その話をまとめてみるテスト。gxp については、既にNLP2010 のチュートリアルで開発者自身による解説があった。ただ、NLP の人間との間に問題意識にずれを感じた。これについては簡単な…

Bayesian Inference for PCFGs via Markov chain Monte Carlo

NLP

Bayesian Inference for PCFGs via Markov chain Monte Carlo (PDF).The Infinite Tree は、木を扱うものの依存木自体は与えていた。今回は木構造自体を教師なしで求める。気が狂いそうな論文。移動中に読んだ論文。着いてから調べると、案の定的確な解説が…

The Infinite Tree

NLP

The Infinite Tree (ACL 2007).依存木が与えられたとき、その木構造をうまく説明する品詞を Gibbs sampling により求める。簡潔で的確な解説が既にある。そっちを読んだほうが良い。sampling 系の話題。私がこれまで読んだ論文は系列データを扱ってきた。今…

NLP2010

NLP

NLP2010 に参加。聞き逃した発表も多い。当たり障りのない紹介を試みる。多分あとで増やす。予稿集は読まずに書いている。予稿集の入った DVD は貰ったが、持って行った B5 ノートに DVD ドライブはなかった。 大規模ラベルなしデータを利用した係り受け解析…

日本語の機械翻訳が悲惨な原因

NLP

ねとすた動画 2月号大反省会 その8を見ていたら、不意に NLP の話が出てきて反応してしまった。twitter に一言だけ書いたけど、残りは長くなったので雑記に投げ捨て。話の文脈。(twitter にように海外のサービスを使っていても) 結局日本で閉じていて、意外…

Markov Chain Monte Carlo with People

NLP

Sanborn, A. N., & Griffiths, T. L.: Markov Chain Monte Carlo with People. NIPS 2007. (pdf).NLP に分類したけど、論文に NLP の話は出てこない。探したら真面目に解説しているスライドがあった。こちらを見た方が良い。目的。人間の頭の中にある (と想…

Japanese POS tagset

NLP

英語を書くときに、日本語の文法用語の翻訳にいつも困る。そこで訳語の試案を書いてみるテスト。JUMAN の品詞体系。未完成。気が向いたら埋める。もちろん言葉をうつしただけでは通じないので適切な説明を添える必要がある。また、どうせ無理に訳しても通じ…