The Ising model for changes in word ordering rules in natural languages

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1

言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、SOV 語順の言語は接尾辞を取りやすい。日本語は一貫した語順を持ち、タイ語はその対極だがやはり一貫した語順を持つ。この両極端の間を、特徴量間の依存関係を考慮しながら遷移していくモデルとして Ising モデルを提案する。

年末までに系統論ネタで論文を書く約束になっているが、いまだにサーベイが足りていない。この論文 (とその関連論文) も取りこぼしていた。この分野は少しおかしい。通常であれば、新しめのまともな論文から引用関係をたどっていけば、主要な論文は把握できる。この分野では引用関係が途切れているか、やたら細い場面に出くわす。発表媒体が今回のように物理の雑誌だったり、生物系の雑誌だったりするのも影響しているのだろう。

認識している宿題は具体的には 2 つ。

角田の語順データベースの研究史的位置づけ。130 言語 x 19 語順特徴量の行列。最終成果 (1991) が日本語で出版されたために、内容に見合った評価を受けていないのではないかという印象を現在は持っている。*2
言語類型の変化のモデルのサーベイのやり直し。

この雑記では、後者について現状の理解を書き出す。そしてこの Itoh and Ueda (2004) を適切に位置づける。

状態のモデル

そもそも類型論は不思議な分野で、いつ誰が始めたかについて明確な記述を見かけない。類型論を広めに捉えれば、そうとう昔からあったことになる。例えば、19 世紀ぐらいの形態論の議論で、

isolating > agglutinating > inflecting > isolating

という順に変化するという説があった。*3

現代的な手法、大量の言語を集めてきてデータ駆動で議論する手法は Greenberg から始まると認識している。代表的な成果は Greenberg の言語普遍性。例えば、Universal 2 は以下の通り。

In languages with prepositions, the genitive almost always follows the governing noun, while in languages with postpositions it almost always precedes.

注意すべきは、大量の言語を集めてできあがるのは状態に関するデータベースであること。したがって、状態に関する議論が中心となる。変化に関する議論はその発展編となる。

とはいえ、状態を議論するからといって、変化を完全に無視できるわけではない。複数の言語の間である性質が成り立つとき、それが普遍性に起因するとは限らない。genetic な (共通の祖先から性質を引き継いだ) 要因と、areal な (接触を通じて性質を獲得した) 要因も考えられる。普遍性を主張するには、こうした要因を統制しなければならない。素朴には、地理的に離れていて、系統関係にない言語を世界中から拾ってくれば良い。*4データ収集ではなく、モデルによってそうした要因を統制しようという試みもある。Daumé III and Campbell (ACL2007) は、示唆的普遍性 (implicational universal) (例えば、OV ⊃ 後置詞型) を扱うベイズ生成モデルに、言語同士の関連を組み込んでいる。このモデルでは、implication が普遍性の側から生成される場合と、既知の語族や地理位置に基づくクラスタから生成される場合がある。

独立変化のモデル

いよいよここから言語類型の変化のモデルを見ていく。一番素朴なモデルは、特徴量間の依存関係を無視して、各特徴量を独立に扱うもの。そうしたモデルは進化生物学の分野で発展した。言語における適用例は基礎語彙に基づく系統推定が多いが、類型論データに応用した例がいくつかある。

Teh et al. (NIPS2007) はベイズ統計の専門家の発表という点で他と毛色が異なる。論文の主眼はベイズの新しいクラスタリングモデルの提案だが、評価実験で類型論データから系統樹を作っている。特徴量の変化自体は普通の連続時間マルコフ連鎖。実験設定は、さらっと説明されているが、よく見ると無茶苦茶。上述の Daumé III and Campbell (ACL2007) が加工した WALS のデータを用いている。まずはいくつかの値を統合している。例えば、Glottalized Consonants は、元の WALS では 8 種類の値を取り得るが、2 種類に統合している。次に、多値特徴量を 2 値化している。K 種類の値を取り得える特徴量は K 個の 2 値特徴量に展開している (1-of-K 制約があるので、K 個のうち 1 個だけかならず 1 が立つ)。この2値ベクトルで要素間の独立性を仮定するのは明らかにおかしい。再構される祖語の状態は 1-of-K 制約に違反した、論理的にありえないものとなる。連続時間マルコフ連鎖自体は多値データを扱えるのだから、別に 2 値化しなくても良かったろうに。

Daumé III (NAACL2009) (雑記記事) は genetic な系統樹だけでなく、areal なクラスタ (言語連合) を同時にモデル化している。データは Teh et al. (NIPS2007) と同じだから同じ問題をかかえている。

Greenhill et al. (2010) は類型論のデータを基礎語彙と比較し、系統推定において類型論データは今ひとつだと議論している。彼らは、系統樹自体は推定せず、既知の系統樹を与えてパラメータだけを推定している。使っているデータは WALS。recoding と称して、値をかなり加工している (Supplementary Table 3) ものの、2 値ではなく多値。

最初に言ったように、独立変化のモデルは特徴量間の依存関係を無視する。したがって、例えば祖語の状態を推定したとき、言語として不自然な状態を推定しかねない。

特徴量ペアの変化モデル

状態に関する議論で特徴量間の依存関係が認識されている以上、それを変化のモデルに組み込もうという試みもある。

Greenberg 自身が、Diachrony, Synchrony and Language Universals (1978)*5 において、状態過程モデル (state-process model) を提案している。この論文はオンラインで公開されていない。自作スライドに例を転載しているのでそちらを参照してほしい。

状態過程モデルは普通のマルコフ連鎖の状態遷移。いま 2 個の特徴量を考える。例では、数詞と名詞の語順 (QN: 数詞 + 名詞, NQ: 名詞 + 数詞) および、形容詞と名詞の語順 (AN: 形容詞 + 名詞, NA: 名詞 + 形容詞) に着目している。組み合わせると 2x2=4 種類の状態を取り得える。しかし、NQ, AN という状態を取る言語が全然存在しないことがわかっている。だとすると、仮に QN, AN から NQ, NA への遷移を考えたとき、中間状態として NQ, AN ではなく、QN, NA を経由する方が自然だと推測できる。

この状態過程モデルを系統推定と組み合わせたのが Dunn et al. (Nature, 2011) (雑記記事)。これもまた進化生物学のモデルの転用。

モデルは 2 種類。独立モデルと依存モデル。系統樹を与えた上で、モデル同士を Bayes factor で比較する。依存モデルが充分に勝っていれば特徴量ペアに依存があると解釈する。独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。これは Greenberg の状態過程モデル。依存モデルであれば、NQ, AN という状態を取りにくいことがデータから学習できる。

類型論のデータは例によって WALS。調べる特徴量は 8 個だけで、すべて著者らによって 2 値化されている (S1.3)。

ペアではなく、3 個以上の特徴量を考慮することは原理的に不可能ではない。しかし組み合わせ爆発を起こすから現実的でない。Greenberg のように、計算機ではなく人間が議論する場合も、状態数が増えると手に負えなくなる。

そもそも研究の方向性にも違いがある。このモデルは説明指向だが、私がやりたいのは系統推定という予測 (過去の状態と変化の推定)。

複数の特徴量の変化モデル

1 個、2 個と来て、次は複数の特徴量の依存関係を扱うモデル。Itoh and Ueda (2004) はこれに該当する。

特徴量間の依存関係は一般にペアに限定されない。角田の語順データベースを例に取ると、「名詞と接辞」、「属格と名詞」、「関係詞節と名詞」等は強い依存関係にある。この関係を捉えるために導入されるのが Ising model。2 値化された各語順特徴量のうち、日本語の値を +1 とし、その反対を -1 としている。タイ語はほとんどの特徴量について -1。ある言語の特徴量群の値は、+1 なら +1、-1 なら -1 でまとまりやすい。この性質が、強磁性においてスピンが同じ向き (+1 あるいは -1) を取りやすいという性質と共通する。

しかし、私は何が Ising model なのか (というより何が Ising model に該当しないか) をいまだに理解していない。物理に不案内なので、知っている応用例は PRML に出てきた画像のノイズ除去だけ。ノイズ除去の場合は、隣り合うドットが同じ値を取りやすいという性質が Ising model にあっていた。このノイズ除去の例のように、エネルギーの確率分布が出てくると予想していたが、Itoh and Ueda (2004) には出てこない。代わりに ternary interaction model と呼ぶ確率的な操作が導入される。私の印象ではむしろ進化ゲームっぽい。それに、普通の Ising model なら隣接ノードとの関係を考えるとが、ternary interaction model では、3 個の特徴量をランダムに選ぶ。

言語に Ising model を適用した他の例を探したところ、Natalie Prévost の博論、The Physics of Language: Toward a Phase-Transition of Language Change (2003) が見つかった。こちらは個体の集団の中である変化が伝播していくという設定。ノードは個体で、隣りあう個体同士が通信する。これこそ進化ゲームでモデル化すればよくある話になりそう。個体ではなく類型論の特徴量をノードとしたという点で Itoh and Ueda (2004) は独創的だと思う。

使用しているデータは角田の語順データベース。19 個の特徴量のうち、8 個だけを選択。

最後にこのモデルの限界をいくつか挙げる。まず、データの仕様に強い制限がある。

特徴量がすべて 2 値
値のうちいずれが +1 かを事前に指定

一般には多値の特徴量を使いたいし、ある特徴量の値が別の特徴量のどの値と共起するかは事前に指定するのではなく、データから学習させたい。

変化の振る舞いについても限界がある。一貫した、安定した語順が存在するという点は良い。問題は、一貫しない状態。Greenberg の例にあるように、QN, NA という状態はありえても、NQ, AN という状態は取らないという性質をこのモデルは捉えられない。

深層モデル

ここまでのモデルは特徴量の値の変化を直接モデル化していた。いわば表層モデル。これに対し、Chomskyan な生成文法一派は、表層の観測データの背後に隠れた構造を仮定する。

これまで見たいくつかの論文は Chomsky の弟子の Mark C. Baker による The Atoms of Language (2001) を参照している (未見)。本当はこの本を読むべきなのだろうが、ひとまず郡司先生の解説記事 (2005) でお茶を濁す。

まずパラメータという隠れ変数を導入する。パラメータは離散的で、ほとんどが 2 値。パラメータ群は階層的に組織されており、それらのパラメータの値をすべて決めれば個別言語が出てくる。例えば、「多総合性: no」、「主要部方向性－随意的多総合性: 最後/no」、「能格: 対格」、「主題卓越: yes」と設定すれば、日本語が出てくる。パラメータの値を変更すれば別の言語になる。

元の特徴量とパラメータに大差がないように見えるが、抽象化が進んでいる。これまでに見てきた語順の特徴量群は「主要部方向性のパラメータ」にまとめられている。この隠れ変数から観測変数たる特徴量群が生成される。

しかし、こんなおもちゃモデルを実データにあてはめることはできない。「主要部方向性のパラメータ」を導入すると、上述の QN, NA は行き場を失う。実データには例外がつきものだし、例外のない部分に対象を制限したら、重要な性質を取りこぼしてしまう。状態だけでなく、変化を考慮するならなおさら。

郡司先生は離散表現を支持しつつも、この点に触れている。

歴史的に語順が変更された言語はあり、そのような言語は変更の途中の過渡期には、両方の言い方が混っていたかもしれない。

文法の変異の連続的なふるまいは、はじめから想定外としているが、それでよいのだろうか。

そういうわけで、Murawaki (NAACL2015) では隠れ構造として連続値ベクトルを採用した。変化は連続空間上の random walk。今から考えると、ちゃんと時間の項を入れればよかった。

生成文法 (や認知科学) では、言語普遍性と人間の生得的能力を結びつけて議論しがちだが、Evans and Levinson (2009) はこの点を痛烈に批判している。私自身は割り切っていて、普遍性の原因にまで踏み込む気はない。系統推定ができれば充分だと思っている。特徴量群によって空間が構成され、個別言語はその中の点として表現される。実在の言語群を適切に汎化すると、この空間の中でごく限られた部分空間が得られる。この部分空間が人間の言語能力 (capacity) に対応しているかはわからない。言語能力的には有り得るが、たまたま人間がまだ試していない領域が存在する可能性は否定できない。系統推定の場合は、現代語のデータベースから学習される部分空間に祖語が収まってさえいればよい。

その他

特徴量間の依存関係がどうこうという以前に、1 個の特徴量しか扱っていない研究もある。Maurits and Griffiths (PNAS, 2014) は、SVO の基本語順 6 種類の遷移をモデル化している。連続時間マルコフ連鎖で 6x6=36 セルの遷移率行列を用意し、既知の系統樹からそのパラメータを学習している。使用データは WALS。この研究に限らず、認知系の人は基本語順にだけこだわっている印象がある。語順は統語関係を encode するものという思い込みがうかがえる。

明示的に状態遷移を扱わず、古典的なクラスタリング手法に頼る研究に対象を拡大すれば、さらに古いのが見つかる。Cysouw のサーベイ (2007) によれば、Gabriel Altmann の Die phonologische Profilähnlichkeit. Ein Beitrag zur Typologie phonologischer Systeme der slawischen Sprachen (1971) (未見) が一番古く、別グループの研究としては Tsunoda et al. (1995) がそれに続くようである。このあたりの文献を生物系の人はちゃんと引用していない。

Dunn et al. (Science, 2005) は maximum parsimony tree を作っている。対象はパプア諸語とオーストロネシア語族の (西) オセアニア諸語。類型論のデータは自作。2 値化された特徴量が 125 個。強い相関を示す特徴量はあらかじめ排除したという。彼らは Dunn et al. (2007) の段階で、ベイズ手法を存在を知ったらしい。長編の Dunn et al. (Language, 2008) が総仕上げ。

変わったところでは、Dunn と同じグループの Reesink et al. (2009) が、Structure という混合分布モデルのソフトに類型論のデータを突っ込んでいる。

Longobardi らの一連の研究 (いまのところ読んだのは Longobardi and Guardiano (2009) と Longobardi et al. (2013) だけ) は、一応深層構造を考えているが、変化をモデル化していない。Longobardi は生成文法の人。データベースを自作している。その代わりモデルは借りもの。対象分野をしぼれば網羅的に特徴量を列挙できて bias が生じないという主張のもと、Determiner Phrase (DP) の特徴を列挙している。対象言語はほとんどがヨーロッパ語派の言語。申し訳程度にインド・イラン語派と別系統の言語も加えている。

Longobardi らの論文からは普遍文法への篤い信仰がうかがえる。Chomsky 流に特徴量を parameter と呼んでいる。しかし、その parameter 群は、Baker (2001) と違ってあまり構造化されていない。ほとんど生の特徴量と言ってよい。基本的には + と - で 2 値化されてている。ただし、特徴量間の依存を考えており、他の parameter セットに含意されるものは 0 で表す。この 0 を考慮するような言語対の距離を定義している。結局は距離ベースのクラスタリングによって系統樹を作っている。

Longobardi らは独立変化のモデルの存在を知っている。でも、特徴量間の依存関係を指摘して、あえて採用しない。一般に、データについて知りすぎていると蛮勇に走れなくなる。これは吉と出ることも凶と出ることもある。

まとめ

これまで取り上げたモデルは以下のように整理できる。

表層モデル
- 独立
- ペア
- 複数
深層モデル

まずは表層変化を直接扱うか、背後に隠れ構造を仮定するか。表層モデルの場合は、特徴量間の依存関係の扱い方で 3 種類に細分化できる。深層モデルは複数の依存関係を考慮している。

*1:シンポジウムで発表した際に第一著者より拝領。

*2:WALS の introduction でも言及がない。しかし、そもそもこのページは Greenberg への言及すらない。考えてみたら、WALS 以前に誰がどういうデータを作っていたかまったく把握していない。

*3:Croft の講義資料を参照した。

*4:しかし直観に従って集めると根拠として弱いので、サンプリング手法を真面目に考えようという論文がいくつかあった気がするが、ちゃんと調べていない。

*5:Greenberg 自身が断っているように、これが初出ではないけど。

murawaki の雑記

はてなグループから移転してきました