Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.
せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリアとニューギニアに相当) の言語 121 個の類型論データに STRUCTURE を適用し、各言語を潜在クラスの混合として扱う。得られた潜在クラスと各言語の混合比を既存の言語学の知見と比較する。
やっていることは結果の図を見れば一目瞭然。pie chart が各言語で、色分けは潜在クラスに対応している。ここではクラス数 K=10。
生物のように両親から 1 個ずつ、計 2 個のコピーを引き継ぐ (diploid) ということはないので、A = 1。ますます LDA っぽい。
著者のグループは Dunn et al. (Science, 2005) 以来、パプア諸語の系統問題に取り組んでいる。問題は、系統関係不明の大量の言語をどう解釈するか。長期にわたり接触が続いたと見られることから木のモデルは不適当だと著者らは主張する。そこで代わりに混合分布モデルが出てくる。しかし、「そこに山があるから」ではないが、そこにツールがあるからやってみた感はある。時間的変化を考えないモデルなので、得られるのは時間を超越した仮想的クラスタ。
系統不明の言語が集まっているという点で、極東はニューギニア周辺に似ていないこともない。日本語は混成言語だと主張している人は、試しに日本周辺の言語にこの手法を適用してみたら良いのではないか。私は混成言語説は支持しないけど。
ここで考えたいのは、広い意味での接触をどうモデル化するか。系統樹の話をすると、「クレーオルとかどうするんですか」という質問が出て FAQ 化しつつあるが、決定打がまだ出ない。木を使うのは計算上の都合。木はひたすら分岐していくだけで、接触や合流を扱わない。一般のネットワークは自由度が高すぎて扱いにくい。Nelson-Sathi et al. (2011) のように、先に木を用意してから、辺を追加するという tricky な手法もあるけど。
その点、混合分布モデルは現実的な解法ではある。系統推定に言語連合を組み込む話も、結局は系統樹と言語連合という 2 種類の混合だった。このモデルでは、言語連合は時間を超越している。接触を通じて徐々に特徴を獲得するという話にはなっていない。
引っかかるのは、例によって特徴量の独立性。最初に、各言語の混合比を draw したあとは、各言語の特徴量の所属クラスは条件付き独立。この特徴量とこの特徴量は連動するという話は扱えない。直感的には、あちこちの言語群からランダムに特徴を借りてくるとは考えにくい。接触時にはこういう変化が起きやすいという一般的な傾向を捉えるようなモデルにしたい。
一応、STRUCTURE には特徴量間の依存関係を扱うための拡張が入っていた。隠れマルコフモデルによって、隣と同じクラスになりやすいという性質を扱っていた。しかし、言語類型論の特徴量は、便宜的に列で表現しているが、実際には集合。順番に意味はないので、マルコフモデルでは表せない。やはり、表層特徴量をそのまま扱うのではなく、依存関係を捉えるような深層構造に写像するという私の現状の方針が良さそう。