murawaki の雑記

はてなグループから移転してきました

アノテーション一致度

アノテーション一致度 (inter-annotator agreement) を測りたいけど、κ が使えない場合どうするか。想定しているタスクは以下の通り。テキストからいくつか chunk を抽出し、それぞれにラベルを付与する。chunk の大きさはバラバラだし、テキストの一部しか被覆しない。

てっきり FAQ になっているかと思ったが見当たらない。少し調べた結果、以下の手順を採用した。

  1. アノテーション結果を集約したデータを 1 セット用意
  2. 一致度を測りたいサンプルを対象に、1 とは独立にアノテート
  3. 集約データを普通の正解、独立にアノテートした結果をシステム出力扱いして、再現率、適合率、F 値等の通常の評価尺度を使う

タスクの設定によっては Krippendorff’s α も使えるかもしれない。もしより良い方法を知っていたら教えてほしい。

以下、ここに至った経緯をメモ書き。

ざっと調べた中で一番詳しく議論していたのが Grouin et al. (2011)。workshop 論文だけど。

アノテーション一致度の尺度としてすぐに思い浮かぶのは Cohen's κ とその変種。N 個の要素に異なり数 C のラベルのいずれかを付与する場合。Cohen's κ は 2 人のアノテータの一致度の尺度。単にラベルが一致した割合を測るのではなく、偶然一致する確率で補正している。

κ 系の尺度が問題となるのは、固有表現認識のように、テキストの一部にタグ付けする場合。N 個の要素というが、その要素自体が自明ではなくなる。Grouin et al. (2011) は要素を markable と呼んで、いろんな markable を検討している。n <= 6 の n-gram とか。そうすると overlap する n-gram は明らかに独立ではない。独立試行の仮定に反している。

また、データのごく一部にしかタグ付けしない場合、タグ付けされていない (どうでもいい) 部分が与える影響が大きくなりすぎてしまう。

次に考えているのが pooling。複数のアノテータの間で、少なくとも一人がつけたものに対象を限定する。これもやはり重複する markable 同士が独立ではないと思うが、その指摘はない。この方法だと低めの数字が出る。

これも指摘されていなけど、ラベル異なり数が増えてくると偶然一致の確率が 0 に近づいていくはず。その場合、単に一致する割合を測るのと変わらなくなるだろう。

結論として F-measure を使えば良いと Grouin et al. (2011) は主張している。

Grouin et al. (2011) は Alex et al. (2010) を参照している。これも workshop 論文。

こちらもタスクは固有表現認識。

For each pair of annotations on the same document, IAA was calculated by scoring one annotator against another using precision (P), recall (R) and F1. An overall IAA was calculated by micro-averaging across all annotated document pairs. We used F1 rather than the Kappa score (Cohen, 1960) to measure IAA as the latter requires comparison with a random baseline, which does not make sense for tasks such as NER.

もう一つ引いている Hripcsak and Rothschild (2005) は 3 ページのジャーナル。

こちらは情報検索。要旨だけ読んでおけばよさそう。結論としては F-measure を使えと。

Information retrieval studies that involve searching the Internet or marking phrases usually lack a well-defined number of negative cases. This prevents the use of traditional interrater reliability metrics like the κ statistic to assess the quality of expert-generated gold standards. Such studies often quantify system performance as precision, recall, and F-measure, or as agreement. It can be shown that the average F-measure among pairs of experts is numerically identical to the average positive specific agreement among experts and that κ approaches these measures as the number of negative cases grows large. Positive specific agreement--or the equivalent F-measure--may be an appropriate way to quantify interrater reliability and therefore to assess the reliability of a gold standard in these studies.

Corbett et al. (2007) な chemical named entities を扱う。

彼らも F1 を使う。アノテータ同士の pairwise で。

Inter-annotator agreement was measured pairwise, using the F score.

κ は使い物にならないと主張。

Given the character-level nature of the annotation task, and that the papers were not tokenised, the task cannot sensibly be cast as a classification problem, and so we have not calculated any kappa scores.

しかし pairwise な比較は、アノテータによって質がばらついているときに微妙っぽい。

Krippendorff (2004) は独自手法を提案している。

Krippendorff’s α として Wikipedia に長文記事があるが、本人がかなり手を入れているっぽい。

基本は \alpha = 1 - \frac{D_o}{D_e}。ここで D_o は observed agreement、D_e は chance agreement。複数のラベルからなる場合は \alpha = 1 - \frac{\sum_c D_{oc}}{\sum_c D_{ec}}。ラベルタイプごとに別々に計算した結果を集約する。問題は、D_oD_e の計算方法。詳細は省くが、2 つの線分上の重複区間を考慮するような式になっている。

Krippendorff (2004) の手法には微妙な点がある。文字列 A B C D E に対して、A [ B C D ] E のように BCD ひとかたまりにタグ付けする場合と、A [ B ] [ C D ] E のように B と CD をわけてタグ付けする場合を区別したいことがある。私の理解が正しければ、この区別ができない式になっている。

Krippendorff’s α を NLP で使っていて、なおかつ markable の問題がある例として Wacholder et al. (2014) が見つかった。

談話へのアノテート。fuzziness of unit boundaries が問題となる。以下のように既存尺度の問題を述べたあとで独自のクラスタリング手法を提案する。

We show that current metrics for inter-annotator agreement (IAA) such as P/R/F1 and Krippendorff’s α provide inconsistent results for the same text. In addition, IAA metrics do not tell us what parts of a text are easier or harder for human judges to annotate and so do not provide sufficiently specific information for evaluating systems that automatically identify discourse units.

彼らの説明によると、Krippendorff’s α, a variant of the α family of IAA coefficients specifically designed to handle fuzzy boundaries and multiple annotators らしい。

F1 と Krippendorff’s α を文書 (thread) ごとに出して、順位付けしたら全然違う結果がでたという。

ただ、彼らが問題にしているのはむしろ別の点。

They do not pinpoint the location in a document where the extent of variation can be observed.

1 個のスカラーで要約されても役に立たないというが、これは言いがかりに近い。

Stab and Gurevych (2014) も Krippendorff’s α を使っている。

Since there are no predefined markables in our study, annotators have to identify the boundaries of argument components. We evaluate the annotations using Krippendorff’s αU (Krippendorff, 2004). It considers the differences in the markable boundaries of several annotators and thus allows for assessing the reliability of our annotated corpus.

Krippendorff’s αU は低めの数値になる様子。ちなみに Kolhatkar et al. (2013)uα と表記している。

Explaining the Linguistic Diversity of Sahul Using Population Models

Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.

せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリアとニューギニアに相当) の言語 121 個の類型論データに STRUCTURE を適用し、各言語を潜在クラスの混合として扱う。得られた潜在クラスと各言語の混合比を既存の言語学の知見と比較する。

やっていることは結果の図を見れば一目瞭然。pie chart が各言語で、色分けは潜在クラスに対応している。ここではクラス数 K=10。

生物のように両親から 1 個ずつ、計 2 個のコピーを引き継ぐ (diploid) ということはないので、A = 1。ますます LDA っぽい。

著者のグループは Dunn et al. (Science, 2005) 以来、パプア諸語の系統問題に取り組んでいる。問題は、系統関係不明の大量の言語をどう解釈するか。長期にわたり接触が続いたと見られることから木のモデルは不適当だと著者らは主張する。そこで代わりに混合分布モデルが出てくる。しかし、「そこに山があるから」ではないが、そこにツールがあるからやってみた感はある。時間的変化を考えないモデルなので、得られるのは時間を超越した仮想的クラスタ

系統不明の言語が集まっているという点で、極東はニューギニア周辺に似ていないこともない。日本語は混成言語だと主張している人は、試しに日本周辺の言語にこの手法を適用してみたら良いのではないか。私は混成言語説は支持しないけど。

ここで考えたいのは、広い意味での接触をどうモデル化するか。系統樹の話をすると、「クレーオルとかどうするんですか」という質問が出て FAQ 化しつつあるが、決定打がまだ出ない。木を使うのは計算上の都合。木はひたすら分岐していくだけで、接触や合流を扱わない。一般のネットワークは自由度が高すぎて扱いにくい。Nelson-Sathi et al. (2011) のように、先に木を用意してから、辺を追加するという tricky な手法もあるけど。

その点、混合分布モデルは現実的な解法ではある。系統推定に言語連合を組み込む話も、結局は系統樹と言語連合という 2 種類の混合だった。このモデルでは、言語連合は時間を超越している。接触を通じて徐々に特徴を獲得するという話にはなっていない。

引っかかるのは、例によって特徴量の独立性。最初に、各言語の混合比を draw したあとは、各言語の特徴量の所属クラスは条件付き独立。この特徴量とこの特徴量は連動するという話は扱えない。直感的には、あちこちの言語群からランダムに特徴を借りてくるとは考えにくい。接触時にはこういう変化が起きやすいという一般的な傾向を捉えるようなモデルにしたい。

一応、STRUCTURE には特徴量間の依存関係を扱うための拡張が入っていた。隠れマルコフモデルによって、隣と同じクラスになりやすいという性質を扱っていた。しかし、言語類型論の特徴量は、便宜的に列で表現しているが、実際には集合。順番に意味はないので、マルコフモデルでは表せない。やはり、表層特徴量をそのまま扱うのではなく、依存関係を捉えるような深層構造に写像するという私の現状の方針が良さそう。

Support for linguistic macrofamilies from weighted sequence alignment

Gerhard Jäger. Support for linguistic macrofamilies from weighted sequence alignment. PNAS. 2015.

単語対の文字列的な類似度を定義する。各言語は単語の集合で表現される。言語対の距離は、単語集合同士を比較して、単語対の類似度の平均を用いて定義する。この距離を使って、昔ながらの距離ベースのクラスタリングを行って系統樹を作る。この手続きをユーラシアの言語約 1K 個に適用したところ、既存の語族群の上に大語族 (macrofamily) が作られた。それらの大語族を言語学で過去に提案された (怪しげな) 大語族と関連付けて議論している。

著者は Automated Similarity Judgment Program (ASJP) 一派の人。大規模なデータベースを頑張って作っているのは偉い。しかし、正直言って筋が悪い。

なぜこの論文を通してしまったのか理解に苦しむ。なぜ提案する手続きでうまくいくと期待できるかが説明されない限り、この研究は叩き潰すしかない。

まずはこの研究の位置づけから。広いくくりで言うと、この研究は語彙ベースの系統推定に分類できる (他の方法は、例えば言語類型に基づくもの)。語彙ベースの系統推定には。この研究以外に以下も含まれる。

[B] との違いは、音法則の中でも音対応、要するに現代語同士の対応を見ていること。[B] は音変化 (親から子への変化) をモデル化している。だから祖語の状態が推定できる。つまり、過去から現在への歴史的変化を直接説明している。これに対し、音対応は間接的な手がかり。祖語から分岐した 2 つの子孫において別々に音変化が起きた結果。音対応は歴史的変化を説明しない。だから、これに手続き的な操作を加えた結果出てくるものが何なのかわからない。Materials and Methods を見るとわかるが、謎パラメータつきの謎手続きを何段階も繰り返す。[B] の洗練されたモデルに比べると見劣りする。

[G] との違いは、同源語 (cognate) の扱い。[G] は専門家が cognate か否かを 0/1 で判定し、言語をバイナリ列で表現する。言語変化は 0 -> 1 あるいは 1 -> 0 の遷移でモデル化される。大幅に簡略化されてはいるものの、やはり過去から現在への歴史的変化を直接説明している。これに対し、この研究は、単語同士の関係を 0/1 ではなく連続値で表現する。この連続値が何を意味するかも分からない。語源的に無関係な単語対の類似度なんてノイズでしかない。個別には怪しくても 40 個集めて平均すれば使えるのではないかという希望的観測しか提示されていない。*1

さて、語彙ベースの手法であることを踏まえると、大語族の推定の怪しさは明らか。この研究は、提案手法によって既知の語族をうまく再現できたと主張している。しかし、そもそも既存の語族は語彙ベースの手法 ([H]) で作られたものである。そして、大語族は、語彙ベースの手法ではうまく作れなかったからこそ大語族と呼ばれているのである。前者が再現できただけでは、後者の推定は正当化できない。これが、例えば Pagel et al. (PNAS, 2013) であれば、ultraconserved な単語が存在するという主張にもとづいて大語族を構築している。つまり、大語族の推定が正当化されているし、その妥当性を検証しようと思ったら、ultraconserved とされる具体的な単語の妥当性を検証すれば良い。

もし何かやるとしたら、この研究を叩き潰す方向の検証。大語族を構成する語族間では、ろくに同源語を共有しているとは思えない。では、出てきた距離は一体何に左右されているのか。まず借用が効いていそう。あとは、素朴には、音素体系と音節構造が似ていたら、言語同士の距離も近くなりそう。ただし、この研究が使っている calibrated similarity は、名前の通り、その影響を補正するような類似度尺度になってはいる。何が起きているかを知るには、実際にデータを見るしかなさそう。

*1:考え方としては Greenberg の mass comparison に近いと思うのだが、その文脈では Greenberg を引いていない。

STRUCTURE と ADMIXTURE の混合分布モデル

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。

参考までに caption も引用。

(A) Representative estimate of population structure for 1,384 individuals from worldwide populations, including 432 individuals from India. The plot represents the highest-likelihood run among ten STRUCTURE runs with K = 7 clusters. Eight of the other nine runs identified a cluster largely corresponding to India, and five of these eight produced plots nearly identical to the one shown.

Figure 2. Population Structure Inferred from Microsatellite and Insertion/Deletion Polymorphisms

縦の列 (column) が各個体。各個体はゲノムの列 (sequence) で表現されている。これが K=7 個の潜在クラスで色分けされている。要は混合分布モデル、というか NLP 業界的にいうとトピックモデル。となると、具体的にどういうモデルなのか気になるところ。しかし、論文を読むと、生物系の人が生物の言葉で語っていて何度かくじけた。今回 ADMIXTURE の論文 (2009) を見たところ、最初から統計の言葉で説明されていて、ようやく糸口がつかめた。NLP 的な説明に翻訳してみる。

まずソフトウェアの確認から。STRUCTURE という検索泣かせな名前のソフトが昔からあった。最近、ADMIXTURE というこれまた嫌がらせのようなソフトが出てきた。新しい論文では ADMIXTURE を使っていることが多い。他に frappe というソフトもあるが、それほど見かけない。まずは新しい方の ADMIXTURE を見て、次に STRUCTURE に移る。

ADMIXTURE の混合分布モデルのグラフィカルモデルは以下の通り。

  • 事前分布が設定されておらず、pLSI 的。
  • 3 重の plate になっている。外側の I が個体のループ。次の J が DNA の列のループ。言語のトピックモデルだとこの 2 つ (I: 文書, J: 文書内の単語)。A は染色体の数。最近の genome-wide SNP の話だと、diploid といって、両親から 1 個ずつ受け継ぐため、A = 2 らしい。
  • \thetaは個体ごとの混合比。要素数は K。結果の図で色分けされているのはこれ。
  • \varphi が K と J の 2 重ループになっているのも特徴的。言語のトピックモデルだと K ごとにサイズ V の語彙分布を持っている。DNA の場合は列の場所ごとに別の分布を持っているので K x J 個の変数が必要。SNP の場合はベルヌーイ分布。
  • 記号は言語のトピックモデル風に変更している。また、元の説明だとカウントの分布 (多項分布) を考えているが、ここでは列の分布 (categorical 分布) を示している。

Z で周辺化して、W の確率にすると以下の通り。
\begin{eqnarray} p(W | \Theta,\Phi) &=& \prod_i \prod_j \prod_a \sum_k p(z_{i,j,a}=k | \theta_i) p(w_{i,j,a} | z_{i,j,a}=k, \Phi)\\ &=& \prod_i \prod_j \prod_a \sum_k \theta_{i, k} \,\times\, \varphi_{j,k,w_{i,j,a}} \end{eqnarray}
推論は、論文ではまず EM を導入する。しかし EM は遅いからと、別の手法を提案する。EM で遅いと言われると、サンプリング脳なのでつらい。

次。STRUCTURE のグラフィカルモデルは、Pritchard et al. (2000) によると以下の通り。

ADMIXTURE のモデルとの違いは、事前分布が追加されていること。\alpha\eta はいずれも Dirichlet 分布のパラメータ。symmetric なパラメータを一つ与えるか、経験ベイズ的にデータから推定するかでモデルに変種がある。ほぼ LDA。

推論。\theta\varphi は共役性を利用して積分消去したいところだが、元論文はそのままにしている。\theta\varphi と z を (実は\alphaも) MCMC でサンプリングする。

欠損値は、ADMIXTURE の場合、あらかじめ補完するという。STRUCTURE のような MCMC であれば、補完を sampling に組み込むのは簡単そう。

トピック数 K はあらかじめ指定する。Pritchard et al. (2000) では K を自動推定する怪しげなモデルが説明されている。実際に使われているのだろうか。AIC などを使ってモデル選択をするという手もある。論文でよく見かけるのは、K = 2 ... 5 くらいの結果を並べてお茶を濁すもの。

新しい ADMIXTURE の方がモデルが退化しているのが妙なところ。STRUCTURE はサンプリングの遅さが嫌われて ADMIXTURE への移行が進んでいるみたい。規模感としては、I が千ぐらい、J が数十万。確かに小規模とはいえない。でも、Wikipedia の記事 3M ページに対するトピック推定などと比べると、特別大きいわけでもない。

似た研究を別々に進めるのは不健全。LDA を提案した Blei et al. (NIPS2002) が 2002 年だから、実は STRUCTURE の Pritchard et al. (2000) の方が先行している。NIPS 2002 でも、2003 年の JMLR 版でも、Pritchard et al. (2000) への言及がない。2004 年の Blei の博論では引用されているので、このあたりで生物系の研究に気付いたらしい。というか、Blei の論文リストを眺めていると、2015 年になって Posterior predictive checks to quantify lack-of-fit in admixture models of latent population structure という論文を出しているのに気付いた。

ADMIXTURE の論文は 2009 年に出ているが、トピックモデルへの言及がない。ここ 10 年ぐらいで発展したトピックモデルの手法が DNA データにもそのまま使えそう。例えば、階層 Dirichlet 過程を使ってトピック数 K をデータに決めさせるとか、高速化の手法とか。需要はないのだろうか。

The Ising model for changes in word ordering rules in natural languages

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1

言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、SOV 語順の言語は接尾辞を取りやすい。日本語は一貫した語順を持ち、タイ語はその対極だがやはり一貫した語順を持つ。この両極端の間を、特徴量間の依存関係を考慮しながら遷移していくモデルとして Ising モデルを提案する。

年末までに系統論ネタで論文を書く約束になっているが、いまだにサーベイが足りていない。この論文 (とその関連論文) も取りこぼしていた。この分野は少しおかしい。通常であれば、新しめのまともな論文から引用関係をたどっていけば、主要な論文は把握できる。この分野では引用関係が途切れているか、やたら細い場面に出くわす。発表媒体が今回のように物理の雑誌だったり、生物系の雑誌だったりするのも影響しているのだろう。

認識している宿題は具体的には 2 つ。

この雑記では、後者について現状の理解を書き出す。そしてこの Itoh and Ueda (2004) を適切に位置づける。

状態のモデル

そもそも類型論は不思議な分野で、いつ誰が始めたかについて明確な記述を見かけない。類型論を広めに捉えれば、そうとう昔からあったことになる。例えば、19 世紀ぐらいの形態論の議論で、

isolating > agglutinating > inflecting > isolating

という順に変化するという説があった。*3

現代的な手法、大量の言語を集めてきてデータ駆動で議論する手法は Greenberg から始まると認識している。代表的な成果は Greenberg の言語普遍性。例えば、Universal 2 は以下の通り。

In languages with prepositions, the genitive almost always follows the governing noun, while in languages with postpositions it almost always precedes.

注意すべきは、大量の言語を集めてできあがるのは状態に関するデータベースであること。したがって、状態に関する議論が中心となる。変化に関する議論はその発展編となる。

とはいえ、状態を議論するからといって、変化を完全に無視できるわけではない。複数の言語の間である性質が成り立つとき、それが普遍性に起因するとは限らない。genetic な (共通の祖先から性質を引き継いだ) 要因と、areal な (接触を通じて性質を獲得した) 要因も考えられる。普遍性を主張するには、こうした要因を統制しなければならない。素朴には、地理的に離れていて、系統関係にない言語を世界中から拾ってくれば良い。*4データ収集ではなく、モデルによってそうした要因を統制しようという試みもある。Daumé III and Campbell (ACL2007) は、示唆的普遍性 (implicational universal) (例えば、OV ⊃ 後置詞型) を扱うベイズ生成モデルに、言語同士の関連を組み込んでいる。このモデルでは、implication が普遍性の側から生成される場合と、既知の語族や地理位置に基づくクラスタから生成される場合がある。

独立変化のモデル

いよいよここから言語類型の変化のモデルを見ていく。一番素朴なモデルは、特徴量間の依存関係を無視して、各特徴量を独立に扱うもの。そうしたモデルは進化生物学の分野で発展した。言語における適用例は基礎語彙に基づく系統推定が多いが、類型論データに応用した例がいくつかある。

Teh et al. (NIPS2007)ベイズ統計の専門家の発表という点で他と毛色が異なる。論文の主眼はベイズの新しいクラスタリングモデルの提案だが、評価実験で類型論データから系統樹を作っている。特徴量の変化自体は普通の連続時間マルコフ連鎖。実験設定は、さらっと説明されているが、よく見ると無茶苦茶。上述の Daumé III and Campbell (ACL2007) が加工した WALS のデータを用いている。まずはいくつかの値を統合している。例えば、Glottalized Consonants は、元の WALS では 8 種類の値を取り得るが、2 種類に統合している。次に、多値特徴量を 2 値化している。K 種類の値を取り得える特徴量は K 個の 2 値特徴量に展開している (1-of-K 制約があるので、K 個のうち 1 個だけかならず 1 が立つ)。この2値ベクトルで要素間の独立性を仮定するのは明らかにおかしい。再構される祖語の状態は 1-of-K 制約に違反した、論理的にありえないものとなる。連続時間マルコフ連鎖自体は多値データを扱えるのだから、別に 2 値化しなくても良かったろうに。

Daumé III (NAACL2009) (雑記記事) は genetic な系統樹だけでなく、areal なクラスタ (言語連合) を同時にモデル化している。データは Teh et al. (NIPS2007) と同じだから同じ問題をかかえている。

Greenhill et al. (2010) は類型論のデータを基礎語彙と比較し、系統推定において類型論データは今ひとつだと議論している。彼らは、系統樹自体は推定せず、既知の系統樹を与えてパラメータだけを推定している。使っているデータは WALS。recoding と称して、値をかなり加工している (Supplementary Table 3) ものの、2 値ではなく多値。

最初に言ったように、独立変化のモデルは特徴量間の依存関係を無視する。したがって、例えば祖語の状態を推定したとき、言語として不自然な状態を推定しかねない。

特徴量ペアの変化モデル

状態に関する議論で特徴量間の依存関係が認識されている以上、それを変化のモデルに組み込もうという試みもある。

Greenberg 自身が、Diachrony, Synchrony and Language Universals (1978)*5 において、状態過程モデル (state-process model) を提案している。この論文はオンラインで公開されていない。自作スライドに例を転載しているのでそちらを参照してほしい。

状態過程モデルは普通のマルコフ連鎖の状態遷移。いま 2 個の特徴量を考える。例では、数詞と名詞の語順 (QN: 数詞 + 名詞, NQ: 名詞 + 数詞) および、形容詞と名詞の語順 (AN: 形容詞 + 名詞, NA: 名詞 + 形容詞) に着目している。組み合わせると 2x2=4 種類の状態を取り得える。しかし、NQ, AN という状態を取る言語が全然存在しないことがわかっている。だとすると、仮に QN, AN から NQ, NA への遷移を考えたとき、中間状態として NQ, AN ではなく、QN, NA を経由する方が自然だと推測できる。

この状態過程モデルを系統推定と組み合わせたのが Dunn et al. (Nature, 2011) (雑記記事)。これもまた進化生物学のモデルの転用。

モデルは 2 種類。独立モデルと依存モデル。系統樹を与えた上で、モデル同士を Bayes factor で比較する。依存モデルが充分に勝っていれば特徴量ペアに依存があると解釈する。独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。これは Greenberg の状態過程モデル。依存モデルであれば、NQ, AN という状態を取りにくいことがデータから学習できる。

類型論のデータは例によって WALS。調べる特徴量は 8 個だけで、すべて著者らによって 2 値化されている (S1.3)。

ペアではなく、3 個以上の特徴量を考慮することは原理的に不可能ではない。しかし組み合わせ爆発を起こすから現実的でない。Greenberg のように、計算機ではなく人間が議論する場合も、状態数が増えると手に負えなくなる。

そもそも研究の方向性にも違いがある。このモデルは説明指向だが、私がやりたいのは系統推定という予測 (過去の状態と変化の推定)。

複数の特徴量の変化モデル

1 個、2 個と来て、次は複数の特徴量の依存関係を扱うモデル。Itoh and Ueda (2004) はこれに該当する。

特徴量間の依存関係は一般にペアに限定されない。角田の語順データベースを例に取ると、「名詞と接辞」、「属格と名詞」、「関係詞節と名詞」等は強い依存関係にある。この関係を捉えるために導入されるのが Ising model。2 値化された各語順特徴量のうち、日本語の値を +1 とし、その反対を -1 としている。タイ語はほとんどの特徴量について -1。ある言語の特徴量群の値は、+1 なら +1、-1 なら -1 でまとまりやすい。この性質が、強磁性においてスピンが同じ向き (+1 あるいは -1) を取りやすいという性質と共通する。

しかし、私は何が Ising model なのか (というより何が Ising model に該当しないか) をいまだに理解していない。物理に不案内なので、知っている応用例は PRML に出てきた画像のノイズ除去だけ。ノイズ除去の場合は、隣り合うドットが同じ値を取りやすいという性質が Ising model にあっていた。このノイズ除去の例のように、エネルギーの確率分布が出てくると予想していたが、Itoh and Ueda (2004) には出てこない。代わりに ternary interaction model と呼ぶ確率的な操作が導入される。私の印象ではむしろ進化ゲームっぽい。それに、普通の Ising model なら隣接ノードとの関係を考えるとが、ternary interaction model では、3 個の特徴量をランダムに選ぶ。

言語に Ising model を適用した他の例を探したところ、Natalie Prévost の博論、The Physics of Language: Toward a Phase-Transition of Language Change (2003) が見つかった。こちらは個体の集団の中である変化が伝播していくという設定。ノードは個体で、隣りあう個体同士が通信する。これこそ進化ゲームでモデル化すればよくある話になりそう。個体ではなく類型論の特徴量をノードとしたという点で Itoh and Ueda (2004) は独創的だと思う。

使用しているデータは角田の語順データベース。19 個の特徴量のうち、8 個だけを選択。

最後にこのモデルの限界をいくつか挙げる。まず、データの仕様に強い制限がある。

  • 特徴量がすべて 2 値
  • 値のうちいずれが +1 かを事前に指定

一般には多値の特徴量を使いたいし、ある特徴量の値が別の特徴量のどの値と共起するかは事前に指定するのではなく、データから学習させたい。

変化の振る舞いについても限界がある。一貫した、安定した語順が存在するという点は良い。問題は、一貫しない状態。Greenberg の例にあるように、QN, NA という状態はありえても、NQ, AN という状態は取らないという性質をこのモデルは捉えられない。

深層モデル

ここまでのモデルは特徴量の値の変化を直接モデル化していた。いわば表層モデル。これに対し、Chomskyan な生成文法一派は、表層の観測データの背後に隠れた構造を仮定する。

これまで見たいくつかの論文は Chomsky の弟子の Mark C. Baker による The Atoms of Language (2001) を参照している (未見)。本当はこの本を読むべきなのだろうが、ひとまず郡司先生の解説記事 (2005) でお茶を濁す

まずパラメータという隠れ変数を導入する。パラメータは離散的で、ほとんどが 2 値。パラメータ群は階層的に組織されており、それらのパラメータの値をすべて決めれば個別言語が出てくる。例えば、「多総合性: no」、「主要部方向性-随意的多総合性: 最後/no」、「能格: 対格」、「主題卓越: yes」と設定すれば、日本語が出てくる。パラメータの値を変更すれば別の言語になる。

元の特徴量とパラメータに大差がないように見えるが、抽象化が進んでいる。これまでに見てきた語順の特徴量群は「主要部方向性のパラメータ」にまとめられている。この隠れ変数から観測変数たる特徴量群が生成される。

しかし、こんなおもちゃモデルを実データにあてはめることはできない。「主要部方向性のパラメータ」を導入すると、上述の QN, NA は行き場を失う。実データには例外がつきものだし、例外のない部分に対象を制限したら、重要な性質を取りこぼしてしまう。状態だけでなく、変化を考慮するならなおさら。

郡司先生は離散表現を支持しつつも、この点に触れている。

歴史的に語順が変更された言語はあり、そのような言語は変更の途中の過渡期には、両方の言い方が混っていたかもしれない。

文法の変異の連続的なふるまいは、はじめから想定外としているが、それでよいのだろうか。

そういうわけで、Murawaki (NAACL2015) では隠れ構造として連続値ベクトルを採用した。変化は連続空間上の random walk。今から考えると、ちゃんと時間の項を入れればよかった。

生成文法 (や認知科学) では、言語普遍性と人間の生得的能力を結びつけて議論しがちだが、Evans and Levinson (2009) はこの点を痛烈に批判している。私自身は割り切っていて、普遍性の原因にまで踏み込む気はない。系統推定ができれば充分だと思っている。特徴量群によって空間が構成され、個別言語はその中の点として表現される。実在の言語群を適切に汎化すると、この空間の中でごく限られた部分空間が得られる。この部分空間が人間の言語能力 (capacity) に対応しているかはわからない。言語能力的には有り得るが、たまたま人間がまだ試していない領域が存在する可能性は否定できない。系統推定の場合は、現代語のデータベースから学習される部分空間に祖語が収まってさえいればよい。

その他

特徴量間の依存関係がどうこうという以前に、1 個の特徴量しか扱っていない研究もある。Maurits and Griffiths (PNAS, 2014) は、SVO の基本語順 6 種類の遷移をモデル化している。連続時間マルコフ連鎖で 6x6=36 セルの遷移率行列を用意し、既知の系統樹からそのパラメータを学習している。使用データは WALS。この研究に限らず、認知系の人は基本語順にだけこだわっている印象がある。語順は統語関係を encode するものという思い込みがうかがえる。

明示的に状態遷移を扱わず、古典的なクラスタリング手法に頼る研究に対象を拡大すれば、さらに古いのが見つかる。Cysouw のサーベイ (2007) によれば、Gabriel Altmann の Die phonologische Profilähnlichkeit. Ein Beitrag zur Typologie phonologischer Systeme der slawischen Sprachen (1971) (未見) が一番古く、別グループの研究としては Tsunoda et al. (1995) がそれに続くようである。このあたりの文献を生物系の人はちゃんと引用していない。

Dunn et al. (Science, 2005) は maximum parsimony tree を作っている。対象はパプア諸語とオーストロネシア語族の (西) オセアニア諸語。類型論のデータは自作。2 値化された特徴量が 125 個。強い相関を示す特徴量はあらかじめ排除したという。彼らは Dunn et al. (2007) の段階で、ベイズ手法を存在を知ったらしい。長編の Dunn et al. (Language, 2008) が総仕上げ。

変わったところでは、Dunn と同じグループの Reesink et al. (2009) が、Structure という混合分布モデルのソフトに類型論のデータを突っ込んでいる。

Longobardi らの一連の研究 (いまのところ読んだのは Longobardi and Guardiano (2009)Longobardi et al. (2013) だけ) は、一応深層構造を考えているが、変化をモデル化していない。Longobardi は生成文法の人。データベースを自作している。その代わりモデルは借りもの。対象分野をしぼれば網羅的に特徴量を列挙できて bias が生じないという主張のもと、Determiner Phrase (DP) の特徴を列挙している。対象言語はほとんどがヨーロッパ語派の言語。申し訳程度にインド・イラン語派と別系統の言語も加えている。

Longobardi らの論文からは普遍文法への篤い信仰がうかがえる。Chomsky 流に特徴量を parameter と呼んでいる。しかし、その parameter 群は、Baker (2001) と違ってあまり構造化されていない。ほとんど生の特徴量と言ってよい。基本的には + と - で 2 値化されてている。ただし、特徴量間の依存を考えており、他の parameter セットに含意されるものは 0 で表す。この 0 を考慮するような言語対の距離を定義している。結局は距離ベースのクラスタリングによって系統樹を作っている。

Longobardi らは独立変化のモデルの存在を知っている。でも、特徴量間の依存関係を指摘して、あえて採用しない。一般に、データについて知りすぎていると蛮勇に走れなくなる。これは吉と出ることも凶と出ることもある。

まとめ

これまで取り上げたモデルは以下のように整理できる。

  • 表層モデル
    • 独立
    • ペア
    • 複数
  • 深層モデル

まずは表層変化を直接扱うか、背後に隠れ構造を仮定するか。表層モデルの場合は、特徴量間の依存関係の扱い方で 3 種類に細分化できる。深層モデルは複数の依存関係を考慮している。

*1:シンポジウムで発表した際に第一著者より拝領。

*2:WALS の introduction でも言及がない。しかし、そもそもこのページは Greenberg への言及すらない。考えてみたら、WALS 以前に誰がどういうデータを作っていたかまったく把握していない。

*3:Croft の講義資料を参照した。

*4:しかし直観に従って集めると根拠として弱いので、サンプリング手法を真面目に考えようという論文がいくつかあった気がするが、ちゃんと調べていない。

*5:Greenberg 自身が断っているように、これが初出ではないけど。

アイヌ学入門


瀬川拓郎. 『アイヌ学入門』(2015)

アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。

本書では、主に文化面について、著者の最近の主張が提示されている。一般の、中高の教科書レベルの認識では、アイヌ縄文人シーラカンスのように生き残ったかのように思われていそうだが、実際には大きな変化があったこと、その変化に日本が大きく関わっていることを著者は指摘する。

私にとっての新情報は後半、3章から7章までを中心に展開されている。*2 しかし、この部分については、私が著者以外の情報源を把握していないので、「へー」とか「ほー」とか間の抜けたことしか書けない。この雑記では、主に2章までの、私が他の情報源を多少は知っている部分について、コメントを書き散らす。

DNA

The history of human populations in the Japanese Archipelago inferred from genome-wide SNP data with a special reference to the Ainu and the Ryukyuan populations (Journal of Human Genetics, 2012) を引いて、「弥生時代朝鮮半島から渡来した人びとが縄文人と交雑して和人 (本土人) になり、周縁の北海道と琉球には縄文人の特徴を色濃くもつ人びと、つまり琉球人とアイヌが残ったといいます。」(p.39) と要約しているのは少し乱暴。この研究が直接主張するのは主に次の2点。

この結果が従来の二重構造モデルと整合的だと慎重に議論している。現代人の DNA を調べただけでは直接故地を推定するのは難しい。交雑の時期についても今回は推定していない。

データに関しては、平取のサンプルが本当に (北海道) アイヌ全体を代表しているかが以前から気になっている。もう一つ、アイヌとニブフの関係については、先行研究を引くのみだが、データを採って分析してほしいところ。上記論文が引いている Genetic origins of the Ainu inferred from combined DNA analyses of maternal and paternal lineages (2004) はまだちゃんと読んでいない。

ちなみに、今年になって続報が出ている。Unique characteristics of the Ainu population in Northern Japan (Journal of Human Genetics, 2015). アイヌのデータは 2012 年版と同じだが、別ソースのデータと重ねあわせている (図 2)。このデータは本土のサンプル数が 1,000 程度と大規模で、関東に限らず、各地方のデータが使われている。大きな発見は、東北は (北海道) アイヌと似ていないこと。

その先に出てくるのが 3-population test (f3) や f4-ratio test。交雑の時期や割合を推定する話だが、モデルの詳細をまだ理解していない。言語に応用できなそうなモデルだし。アイヌを縄文の代わりに、漢人朝鮮人を弥生の代わりとして使うのは微妙ではないかという感想を海外のブログで目にした。

あとは、細かいけど気になったのが、ハプログループがミトコンドリアのみに関するものであるかのような記述 (p.44 と p.55)。

2015年10月27日追記: Choongwon Jeong, Shigeki Nakagome, and Anna Di Rienzo. Deep History of East Asian Populations Revealed Through Genetic Analysis of the Ainu. Genetics. (2015) も読んだ。同じ平取のサンプルを使っているけど、分析が違う。

  • アイヌのサンプルは PCA で見ると heterogeneous だけど、ADLER で admixture time を推定すると、2 pulse model で古めに見積もっても 30-40 generations ago。弥生時代はもちろん、オホーツク文化との接触と比較しても新しすぎる。
  • ADMIXTURE (K=8) だと、アイヌは独自クラスタ。Japanese と Ulchi にアイヌ要素が見られる。
  • TreeMix をやると East Asian の中で outgroup を作る。でも Itelmen-Nganasan よりも内側。アイヌ白人幻想へのカウンターにはなっている。
  • allele の positive selection の話が面白い。East Asian に多い EDAR V370A をアイヌの 25% しか持っていない。ただし、同じく East Asian に多い OCA2 H615R はアイヌも高頻度に持っている。APO gene cluster の positive selection が海洋生物への依存を反映している可能性を指摘。

縄文人の南下

考古学的な詳細を知らないまま、修辞を追いかけていて気になった部分。

p.50 あたり。「オホーツク人の集落は海岸線から二キロメートル以内にしかな」い一方、「アイヌの集落は縄文時代以降近世まで、沿岸から内陸奥地にまで設けられてい」るのに、「アイヌはこれ [注: オホーツク人の南下] を避け、北海道の南半に押しこめられるかたちにな」ったのはなぜ? これだけ読むと、素朴には、沿岸を占拠されても、上流域は引き続き確保できそうなものである。オホーツク人が「クマなどの毛皮獣も多数捕獲していた」ことと関係ある?

東北のアイヌ語地名の担い手

東北のアイヌ語地名をいつ誰が残したのかという問題は、私にとってアイヌに関する最大の関心事の一つ。本書では、p.52 での導入に続き、p.70 以降で議論している。

本書は、「古墳時代の四世紀になると、北海道の続縄文文化の人びと (アイヌ) はこの [注: 本州の] 鉄製品を手に入れるために、古墳社会の前線地帯だった仙台―新潟付近まで南下していました」(p.71) とさらっと記述している。この主張にどの程度強い根拠があるのか気になる。「そのため東北地方の遺跡からは、当時の北海道と同じ土器や墓がみつかります」(p.71) と書くが、典拠を付けていない。

関連文献のうち、本書が引く (松本 2006) は未見。同じ著者による『蝦夷(えみし)とは誰か』(2011) は読んだ。それによると、「東北北部では、弥生時代後期~古墳時代中期に併行する時期、すなわち1世紀後葉~5世紀前半ころの住居は発見されていない」(p.96) が、「3世紀後半ころ~5世紀後葉までは、東北北部でも、北海道の続縄文土器とほぼ同じものが作られていた」(p.97) とのことである。北海道と東北北部が同じ文化圏に属していたというだけで、この時期に南下が起きたとは言っていない。松本は、前時代との連続性を想定しているようである。

南下を主張するには、前時代との断絶を示す必要があるように思う。

接頭辞優勢言語?

アイヌ語は接頭辞が優勢」(p.68) という話。あまり気にしてなかったが、確かにそうだ。(中川 2010) は未見。

WALS で Feature 26A: Prefixing vs. Suffixing in Inflectional Morphology を見ると、アイヌ語は Equal prefixing and suffixing に分類されていた。ケット語は Weakly prefixing。周辺を見るとチベットビルマ系のギャロン語が Weakly prefixing、台湾のルカイ語とパイワン語が Equal prefixing and suffixing。

最近ケットと同系かもしれないと言われている北米のナ・デネ語族を見ると、結構接頭辞が優勢。

  • Slave, Tanacross, Chipewyan, Navajo が Strong prefixing
  • Sarcee, Hupa が Weakly prefixing
  • Tlingit, Apache (Western) が Equal prefixing and suffixing

最近考えている語順変化のモデルに例として使えるかもしれない。

相互理解可能性

北海道とサハリンの基礎語彙残存率が70%程度で、宮古首里のペア*3と同程度であるから、「意思の疎通も困難なほど異なっていたというわけではありません」(p.85) という。ここで引いている (金田一, 1960c) は未見 (そればっかり...)。

相互理解可能性はそもそも 0/1 で割り切れる性質のものではないが、一般に聞く話では宮古と沖縄は相互理解不可能。それもかなり昔からそうだったらしい。1390年に宮古の与那覇勢頭豊見親が首里朝貢したが、言葉が通じないので「怜悧の者二十名を選んで学ばせ」、3年にして言葉が通じたという (出典?)。

北海道とサハリンは実際のところどうなのだろうか?

基礎語彙残存率と相互理解可能性の相関を真面目に調べた研究は存在するのだろうか?

Bayes 系統モデル

Lee and Hasegawa (2013) を「言語年代学的にあらためて計算しなおし...」(p.87) と説明するのは変。服部四郎が採取したデータこそが言語年代学の遺産。彼らの手法は、言語年代学というか語彙統計学の研究が低迷している間に発展した進化生物学の統計的手法に由来する。正確には、進化生物学から直接借りてきたのではなく、他の研究グループがインド・ヨーロッパ語族に適用して話題になったので、同じ手法をアイヌ語に適用したもの。

「この [注: 年代] 推定をもとに考古学的な事象を解釈し、もともとサハリン方言とはオホーツク人の言語だったのであり、オホーツク人が八世紀に北海道全域へ拡散し、アイヌと融合するなかで、アイヌ語北海道方言が成立した、とのべています」(p.87) という結果の要約も変。彼らの主張は以下の通り。

  • 縄文人にオホーツク人が強い影響を与えた結果成立したのがアイヌ
  • その故地は北海道北部
  • 現代の方言は、北海道北部の故地から北のサハリンへ、また北海道南部へ拡散することで成立

系統モデルの性質上、全子孫の共通祖先にたどり着いたら終わりで、それ以前の状態は推定しない。彼らの主張はその祖語が北海道北部で成立したというだけ。考古学的知見の解釈についても、その言語を縄文人とオホーツク人のどちらから引き継いだかについては何も言っていない。

もう少し真面目な言語学の議論で、アイヌとニブフの接触を扱ったものを最近見つけた。Alexander Vovin の On the Linguistic Prehistory of Hokkaidōアイヌ語とニブフ語に共通する特徴 (接頭辞と語彙) を認定したうえで、主にアイヌからニブフへの借用を推測している。しかも、いくつかの要素は北海道アイヌ語にも確認され、アイヌ祖語にさかのぼるとみられる。ニブフ側も、サハリン・ニブフだけでなく、アムール・ニブフにも確認できる。このことから、オホーツク人が北海道 (のオホーツク海沿岸) でアイヌ語話者と接触したと推測している。たいした根拠があるわけではないし、話半分に聞いておくぐらいで良い。

*1:想定読者を広く設定すると仕方がないのかもしれないが、個人的には新書という形式は好きではない。引用しにくいし。典拠不明の記述が多いのも不満。本書は要所要所では文献を引いているけど。

*2:特に3章のコロポックル伝承の起源と展開が刺激的。以前、同じ著者の『コロポックルとはだれか』(2012) を読んで感心したが、本書はそこから何歩も先に議論を進めていた。

*3:琉球語における宮古方言と首里方言」という表現が気になる。「琉球語」は存在しない。首里の言語をそう呼ぶのでないなら。そもそも「言語」と「方言」の識別に関して取り得る立場は2つある。日本語族に属する lect を分類すると taxonomy ができる。一つの立場はすべての階層のノードを「方言」と呼ぶもの。この場合、当然「琉球語」は出てこない。もう一つは、相互理解可能性という怪しげな基準を使って「言語」と「方言」を識別するもの。この場合も、具体的に何言語を認定するかは別として、それらは琉球よりも下位の階層に位置する。よって、琉球ノードは「琉球語」となる。どこかに「琉球語宮古方言」を支持する立場の人がいたりするのだろうか? 「言語」と「方言」の識別は、分類学者が「科」なのか「亜科」なのかと悩むようなもので、本質的に重要な区別ではない。しかし、社会的には方言は言語よりも劣るという観念が根強いようである。ある種の質の悪い言説は、このような社会的背景を認識しているにも関わらず、「言語」の認定と危機言語の保存運動を同時に行おうとする。この言説は、方言に対する社会的偏見をむしろ強化するという点で有害である。そもそも、この手の言説は、「言語」という分類学上の階層が保存運動の単位となる階層とどう対応するかを一切説明しない。これは自明ではない。話者自身が認識するまとまりは、一般に「言語」と対応しない。おそらく、保存運動とは、進歩的な自分たちが、遅れた話者に対して、学問の権威を背景に下す神託だと考えているのだろう。

基礎語彙データの所在

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉球の方言基礎語彙』(1988) で補完する形でデータが作成されているから。私はこの点が不満。彼らのその後の研究動向を見るに、増補版を出してくれそうな雰囲気はない。そこで、自分で補うという選択肢を考えた。そのために利用できる文献を収集してきた。まずは文献とその調査地点を並べてみる。比較の手間を考え、ひとまず平山輝男が関わっているものに対象を限定する。*1

以下 2 冊は未調査だが、対象は宮古八重山

平山輝男、大島一郎、中本正智琉球方言の総合的研究』(1966): アクセント: 表記なし

平山輝男編『薩南諸島の総合的研究』(1969) アクセント: 音声表記 + 音韻表記

  • 名瀬 (奄美大島 (北))
  • (中種子, 宮之浦, 尾之間, 黒島, 宝島)

平山輝男編著『琉球宮古島諸島方言基礎語彙の総合的研究』(1983) アクセント: 表記なし

  • 平良
  • 池間
  • 長浜

平山輝男編著『奄美方言基礎語彙の研究』(1986) アクセント: 音声表記 + 音韻表記

平山輝男ほか編『現代日本語方言大辞典』(1992): アクセント: 音声表記 + 音韻表記

その他

結論としては、『琉球方言の総合的研究』(1966) と『奄美方言基礎語彙の研究』(1986) を組み合わせれば良さそう。これで奄美はバランスよく扱える。一方、沖縄中南部がやたら手薄なのが気にかかる。というか、「沖縄」と表記されている言語が北部のものであることに今頃になって気付いた。中本 (1981) などは、首里那覇を中心とした周圏論的分布について度々指摘しているけど、いま手元にある平山系データだけではこれを実証しようがない。

*1:中本正智『図説 琉球語辞典』(1981) などは惜しい。調査票に従っていないし、地図上にプロットするだけで、調査地点を明記していない。