Non-Parametric Bayesian Areal Linguistics

Hal Daumé III: Non-Parametric Bayesian Areal Linguistics , NAACL 2009. (PDF)

Areal Linguistics というか linguistic area とは、普通に言う Sprachbund (言語連合) のこと。これを non-parametric Bayes で推定しようと言うのだから正気の沙汰ではない。予備知識なしに Computational Linguistics と言われたら、こういう研究を思い浮かべるのではないか。

使っているデータは WALS (World Atlas of Language Structures)。言語ごとの類型論的な特徴 (語順が SOV か SVO かとか、声調を持つかとか) を素性列として提供する。このデータをどう料理しようかと考えると、すぐに思いつくのは階層クラスタリング。言語の系統を表す dendrogram が出てくるんじゃないかと期待して。

実際、江原先生が言語処理学会で発表していた。もっと激しいのだと、Kingman の coalescent という集団遺伝学から出てきたモデルを Bayes の事前分布にしてクラスタリングする話が Yee Whye Teh らの NIPS2007 の論文にあった。こっちは難しくて理解できてない。

単純な系統モデルには問題がある。結果を見るとロマンス系のルーマニア語が系統的には遠いアルバニア語と最近分岐したことになる。言語同士が似ているのは系統の影響だけでなく、言語連合の影響も考えられる。じゃあ言語連合もモデル化しようというのが問題の論文。

そこで出てくるのが Chinese Restaurant Process。テーブルが地域 (言語連合) で客が言語。言語連合の数は事前に与えず推定。単語分割のモデルと違って、言語連合を表現するために地理的な近さを考慮している。言語連合の中心から半径 R 以内の言語はその言語に属し得る。パラメータ推定のところでガウス分布云々が出てくるけど分かってない。

最終的なモデルは、系統モデルと言語連合モデルを混ぜる。各言語の各素性が系統と言語連語のどちらから生成されたかを二項分布に従って2値で決める。だからデータを与えてパラメータ推定すると、言語連合がどういう素性に影響を与えるのか検討できる。

パラメータ推定の説明は端折りすぎていて分からない。Gibbs sampling は単語分割の論文で散々出てきたから大体想像がつく。でも、系統モデルが理解できていないから全体像が見えない。実装できる気がしない。

実験。系統データを与えて言語連合だけを推定させると、印欧語について期待通りバルカンや SAE が出てくる。世界についてどの素性が効いているか調べると、圧倒的に系統の影響が大きい。比較的言語連合の影響が強いのは音韻や語彙。まあそうだろう。影響の調査には、系統か地域かを決める二項分布のパラメータを見ている。つまり、個別言語に依存しないパラメータ。論文には載っていないけど、二項分布の結果の方を見れば、例えば SAE がどんな性格を持っているのかなども調べられるのではないか。夢がひろがりんぐ。

言語連合と系統を同時に推定し、印欧語の系統の結果を見ると、言語連合の影響が軽減されて系統関係が少しきれいになる。印欧語だけのデータで言語連合の影響を考えてもそんなに面白い結果はでない。

追記: Nature の 2003 年の論文が印欧語の同族語のデータベースを MrBayes にかけて MCMC で系統樹を作っていると教えてもらった。これは意外。Nature なんてうちの業界と縁がないと思っていたので。この研究よりも、使っているデータベースの方がすごい。印欧語の研究の蓄積は半端じゃない。

この研究をどう評価すべきか難しい。考えられる一つの批判は、元データが系統論に commit しすぎていて恣意的ではないかというもの。では一方の WALS が恣意的でないかというと微妙だが、少なくとも系統論に直接的に commit していない。今後は、もっと作為のないデータから系統関係を浮かび上がらせたいところ。

murawaki の雑記

はてなグループから移転してきました

Non-Parametric Bayesian Areal Linguistics