2015-09-20

STRUCTURE と ADMIXTURE の混合分布モデル

NLP

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。

参考までに caption も引用。

(A) Representative estimate of population structure for 1,384 individuals from worldwide populations, including 432 individuals from India. The plot represents the highest-likelihood run among ten STRUCTURE runs with K = 7 clusters. Eight of the other nine runs identified a cluster largely corresponding to India, and five of these eight produced plots nearly identical to the one shown.
Figure 2. Population Structure Inferred from Microsatellite and Insertion/Deletion Polymorphisms

縦の列 (column) が各個体。各個体はゲノムの列 (sequence) で表現されている。これが K=7 個の潜在クラスで色分けされている。要は混合分布モデル、というか NLP 業界的にいうとトピックモデル。となると、具体的にどういうモデルなのか気になるところ。しかし、論文を読むと、生物系の人が生物の言葉で語っていて何度かくじけた。今回 ADMIXTURE の論文 (2009) を見たところ、最初から統計の言葉で説明されていて、ようやく糸口がつかめた。NLP 的な説明に翻訳してみる。

まずソフトウェアの確認から。STRUCTURE という検索泣かせな名前のソフトが昔からあった。最近、ADMIXTURE というこれまた嫌がらせのようなソフトが出てきた。新しい論文では ADMIXTURE を使っていることが多い。他に frappe というソフトもあるが、それほど見かけない。まずは新しい方の ADMIXTURE を見て、次に STRUCTURE に移る。

ADMIXTURE の混合分布モデルのグラフィカルモデルは以下の通り。

事前分布が設定されておらず、pLSI 的。
3 重の plate になっている。外側の I が個体のループ。次の J が DNA の列のループ。言語のトピックモデルだとこの 2 つ (I: 文書, J: 文書内の単語)。A は染色体の数。最近の genome-wide SNP の話だと、diploid といって、両親から 1 個ずつ受け継ぐため、A = 2 らしい。
$\theta$ は個体ごとの混合比。要素数は K。結果の図で色分けされているのはこれ。
$\varphi$ が K と J の 2 重ループになっているのも特徴的。言語のトピックモデルだと K ごとにサイズ V の語彙分布を持っている。DNA の場合は列の場所ごとに別の分布を持っているので K x J 個の変数が必要。SNP の場合はベルヌーイ分布。
記号は言語のトピックモデル風に変更している。また、元の説明だとカウントの分布 (多項分布) を考えているが、ここでは列の分布 (categorical 分布) を示している。

Z で周辺化して、W の確率にすると以下の通り。
$\begin{eqnarray} p(W | \Theta,\Phi) &=& \prod_i \prod_j \prod_a \sum_k p(z_{i,j,a}=k | \theta_i) p(w_{i,j,a} | z_{i,j,a}=k, \Phi)\\ &=& \prod_i \prod_j \prod_a \sum_k \theta_{i, k} \,\times\, \varphi_{j,k,w_{i,j,a}} \end{eqnarray}$
推論は、論文ではまず EM を導入する。しかし EM は遅いからと、別の手法を提案する。EM で遅いと言われると、サンプリング脳なのでつらい。

次。STRUCTURE のグラフィカルモデルは、Pritchard et al. (2000) によると以下の通り。

ADMIXTURE のモデルとの違いは、事前分布が追加されていること。 $\alpha$ と $\eta$ はいずれも Dirichlet 分布のパラメータ。symmetric なパラメータを一つ与えるか、経験ベイズ的にデータから推定するかでモデルに変種がある。ほぼ LDA。

推論。 $\theta$ と $\varphi$ は共役性を利用して積分消去したいところだが、元論文はそのままにしている。 $\theta$ と $\varphi$ と z を (実は $\alpha$ も) MCMC でサンプリングする。

欠損値は、ADMIXTURE の場合、あらかじめ補完するという。STRUCTURE のような MCMC であれば、補完を sampling に組み込むのは簡単そう。

トピック数 K はあらかじめ指定する。Pritchard et al. (2000) では K を自動推定する怪しげなモデルが説明されている。実際に使われているのだろうか。AIC などを使ってモデル選択をするという手もある。論文でよく見かけるのは、K = 2 ... 5 くらいの結果を並べてお茶を濁すもの。

新しい ADMIXTURE の方がモデルが退化しているのが妙なところ。STRUCTURE はサンプリングの遅さが嫌われて ADMIXTURE への移行が進んでいるみたい。規模感としては、I が千ぐらい、J が数十万。確かに小規模とはいえない。でも、Wikipedia の記事 3M ページに対するトピック推定などと比べると、特別大きいわけでもない。

似た研究を別々に進めるのは不健全。LDA を提案した Blei et al. (NIPS2002) が 2002 年だから、実は STRUCTURE の Pritchard et al. (2000) の方が先行している。NIPS 2002 でも、2003 年の JMLR 版でも、Pritchard et al. (2000) への言及がない。2004 年の Blei の博論では引用されているので、このあたりで生物系の研究に気付いたらしい。というか、Blei の論文リストを眺めていると、2015 年になって Posterior predictive checks to quantify lack-of-fit in admixture models of latent population structure という論文を出しているのに気付いた。

ADMIXTURE の論文は 2009 年に出ているが、トピックモデルへの言及がない。ここ 10 年ぐらいで発展したトピックモデルの手法が DNA データにもそのまま使えそう。例えば、階層 Dirichlet 過程を使ってトピック数 K をデータに決めさせるとか、高速化の手法とか。需要はないのだろうか。

2015-09-14

The Ising model for changes in word ordering rules in natural languages

言語

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1

言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、SOV 語順の言語は接尾辞を取りやすい。日本語は一貫した語順を持ち、タイ語はその対極だがやはり一貫した語順を持つ。この両極端の間を、特徴量間の依存関係を考慮しながら遷移していくモデルとして Ising モデルを提案する。

年末までに系統論ネタで論文を書く約束になっているが、いまだにサーベイが足りていない。この論文 (とその関連論文) も取りこぼしていた。この分野は少しおかしい。通常であれば、新しめのまともな論文から引用関係をたどっていけば、主要な論文は把握できる。この分野では引用関係が途切れているか、やたら細い場面に出くわす。発表媒体が今回のように物理の雑誌だったり、生物系の雑誌だったりするのも影響しているのだろう。

認識している宿題は具体的には 2 つ。

角田の語順データベースの研究史的位置づけ。130 言語 x 19 語順特徴量の行列。最終成果 (1991) が日本語で出版されたために、内容に見合った評価を受けていないのではないかという印象を現在は持っている。*2
言語類型の変化のモデルのサーベイのやり直し。

この雑記では、後者について現状の理解を書き出す。そしてこの Itoh and Ueda (2004) を適切に位置づける。

状態のモデル

そもそも類型論は不思議な分野で、いつ誰が始めたかについて明確な記述を見かけない。類型論を広めに捉えれば、そうとう昔からあったことになる。例えば、19 世紀ぐらいの形態論の議論で、

isolating > agglutinating > inflecting > isolating

という順に変化するという説があった。*3

現代的な手法、大量の言語を集めてきてデータ駆動で議論する手法は Greenberg から始まると認識している。代表的な成果は Greenberg の言語普遍性。例えば、Universal 2 は以下の通り。

In languages with prepositions, the genitive almost always follows the governing noun, while in languages with postpositions it almost always precedes.

注意すべきは、大量の言語を集めてできあがるのは状態に関するデータベースであること。したがって、状態に関する議論が中心となる。変化に関する議論はその発展編となる。

とはいえ、状態を議論するからといって、変化を完全に無視できるわけではない。複数の言語の間である性質が成り立つとき、それが普遍性に起因するとは限らない。genetic な (共通の祖先から性質を引き継いだ) 要因と、areal な (接触を通じて性質を獲得した) 要因も考えられる。普遍性を主張するには、こうした要因を統制しなければならない。素朴には、地理的に離れていて、系統関係にない言語を世界中から拾ってくれば良い。*4データ収集ではなく、モデルによってそうした要因を統制しようという試みもある。Daumé III and Campbell (ACL2007) は、示唆的普遍性 (implicational universal) (例えば、OV ⊃ 後置詞型) を扱うベイズ生成モデルに、言語同士の関連を組み込んでいる。このモデルでは、implication が普遍性の側から生成される場合と、既知の語族や地理位置に基づくクラスタから生成される場合がある。

独立変化のモデル

いよいよここから言語類型の変化のモデルを見ていく。一番素朴なモデルは、特徴量間の依存関係を無視して、各特徴量を独立に扱うもの。そうしたモデルは進化生物学の分野で発展した。言語における適用例は基礎語彙に基づく系統推定が多いが、類型論データに応用した例がいくつかある。

Teh et al. (NIPS2007) はベイズ統計の専門家の発表という点で他と毛色が異なる。論文の主眼はベイズの新しいクラスタリングモデルの提案だが、評価実験で類型論データから系統樹を作っている。特徴量の変化自体は普通の連続時間マルコフ連鎖。実験設定は、さらっと説明されているが、よく見ると無茶苦茶。上述の Daumé III and Campbell (ACL2007) が加工した WALS のデータを用いている。まずはいくつかの値を統合している。例えば、Glottalized Consonants は、元の WALS では 8 種類の値を取り得るが、2 種類に統合している。次に、多値特徴量を 2 値化している。K 種類の値を取り得える特徴量は K 個の 2 値特徴量に展開している (1-of-K 制約があるので、K 個のうち 1 個だけかならず 1 が立つ)。この2値ベクトルで要素間の独立性を仮定するのは明らかにおかしい。再構される祖語の状態は 1-of-K 制約に違反した、論理的にありえないものとなる。連続時間マルコフ連鎖自体は多値データを扱えるのだから、別に 2 値化しなくても良かったろうに。

Daumé III (NAACL2009) (雑記記事) は genetic な系統樹だけでなく、areal なクラスタ (言語連合) を同時にモデル化している。データは Teh et al. (NIPS2007) と同じだから同じ問題をかかえている。

Greenhill et al. (2010) は類型論のデータを基礎語彙と比較し、系統推定において類型論データは今ひとつだと議論している。彼らは、系統樹自体は推定せず、既知の系統樹を与えてパラメータだけを推定している。使っているデータは WALS。recoding と称して、値をかなり加工している (Supplementary Table 3) ものの、2 値ではなく多値。

最初に言ったように、独立変化のモデルは特徴量間の依存関係を無視する。したがって、例えば祖語の状態を推定したとき、言語として不自然な状態を推定しかねない。

特徴量ペアの変化モデル

状態に関する議論で特徴量間の依存関係が認識されている以上、それを変化のモデルに組み込もうという試みもある。

Greenberg 自身が、Diachrony, Synchrony and Language Universals (1978)*5 において、状態過程モデル (state-process model) を提案している。この論文はオンラインで公開されていない。自作スライドに例を転載しているのでそちらを参照してほしい。

状態過程モデルは普通のマルコフ連鎖の状態遷移。いま 2 個の特徴量を考える。例では、数詞と名詞の語順 (QN: 数詞 + 名詞, NQ: 名詞 + 数詞) および、形容詞と名詞の語順 (AN: 形容詞 + 名詞, NA: 名詞 + 形容詞) に着目している。組み合わせると 2x2=4 種類の状態を取り得える。しかし、NQ, AN という状態を取る言語が全然存在しないことがわかっている。だとすると、仮に QN, AN から NQ, NA への遷移を考えたとき、中間状態として NQ, AN ではなく、QN, NA を経由する方が自然だと推測できる。

この状態過程モデルを系統推定と組み合わせたのが Dunn et al. (Nature, 2011) (雑記記事)。これもまた進化生物学のモデルの転用。

モデルは 2 種類。独立モデルと依存モデル。系統樹を与えた上で、モデル同士を Bayes factor で比較する。依存モデルが充分に勝っていれば特徴量ペアに依存があると解釈する。独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。これは Greenberg の状態過程モデル。依存モデルであれば、NQ, AN という状態を取りにくいことがデータから学習できる。

類型論のデータは例によって WALS。調べる特徴量は 8 個だけで、すべて著者らによって 2 値化されている (S1.3)。

ペアではなく、3 個以上の特徴量を考慮することは原理的に不可能ではない。しかし組み合わせ爆発を起こすから現実的でない。Greenberg のように、計算機ではなく人間が議論する場合も、状態数が増えると手に負えなくなる。

そもそも研究の方向性にも違いがある。このモデルは説明指向だが、私がやりたいのは系統推定という予測 (過去の状態と変化の推定)。

複数の特徴量の変化モデル

1 個、2 個と来て、次は複数の特徴量の依存関係を扱うモデル。Itoh and Ueda (2004) はこれに該当する。

特徴量間の依存関係は一般にペアに限定されない。角田の語順データベースを例に取ると、「名詞と接辞」、「属格と名詞」、「関係詞節と名詞」等は強い依存関係にある。この関係を捉えるために導入されるのが Ising model。2 値化された各語順特徴量のうち、日本語の値を +1 とし、その反対を -1 としている。タイ語はほとんどの特徴量について -1。ある言語の特徴量群の値は、+1 なら +1、-1 なら -1 でまとまりやすい。この性質が、強磁性においてスピンが同じ向き (+1 あるいは -1) を取りやすいという性質と共通する。

しかし、私は何が Ising model なのか (というより何が Ising model に該当しないか) をいまだに理解していない。物理に不案内なので、知っている応用例は PRML に出てきた画像のノイズ除去だけ。ノイズ除去の場合は、隣り合うドットが同じ値を取りやすいという性質が Ising model にあっていた。このノイズ除去の例のように、エネルギーの確率分布が出てくると予想していたが、Itoh and Ueda (2004) には出てこない。代わりに ternary interaction model と呼ぶ確率的な操作が導入される。私の印象ではむしろ進化ゲームっぽい。それに、普通の Ising model なら隣接ノードとの関係を考えるとが、ternary interaction model では、3 個の特徴量をランダムに選ぶ。

言語に Ising model を適用した他の例を探したところ、Natalie Prévost の博論、The Physics of Language: Toward a Phase-Transition of Language Change (2003) が見つかった。こちらは個体の集団の中である変化が伝播していくという設定。ノードは個体で、隣りあう個体同士が通信する。これこそ進化ゲームでモデル化すればよくある話になりそう。個体ではなく類型論の特徴量をノードとしたという点で Itoh and Ueda (2004) は独創的だと思う。

使用しているデータは角田の語順データベース。19 個の特徴量のうち、8 個だけを選択。

最後にこのモデルの限界をいくつか挙げる。まず、データの仕様に強い制限がある。

特徴量がすべて 2 値
値のうちいずれが +1 かを事前に指定

一般には多値の特徴量を使いたいし、ある特徴量の値が別の特徴量のどの値と共起するかは事前に指定するのではなく、データから学習させたい。

変化の振る舞いについても限界がある。一貫した、安定した語順が存在するという点は良い。問題は、一貫しない状態。Greenberg の例にあるように、QN, NA という状態はありえても、NQ, AN という状態は取らないという性質をこのモデルは捉えられない。

深層モデル

ここまでのモデルは特徴量の値の変化を直接モデル化していた。いわば表層モデル。これに対し、Chomskyan な生成文法一派は、表層の観測データの背後に隠れた構造を仮定する。

これまで見たいくつかの論文は Chomsky の弟子の Mark C. Baker による The Atoms of Language (2001) を参照している (未見)。本当はこの本を読むべきなのだろうが、ひとまず郡司先生の解説記事 (2005) でお茶を濁す。

まずパラメータという隠れ変数を導入する。パラメータは離散的で、ほとんどが 2 値。パラメータ群は階層的に組織されており、それらのパラメータの値をすべて決めれば個別言語が出てくる。例えば、「多総合性: no」、「主要部方向性－随意的多総合性: 最後/no」、「能格: 対格」、「主題卓越: yes」と設定すれば、日本語が出てくる。パラメータの値を変更すれば別の言語になる。

元の特徴量とパラメータに大差がないように見えるが、抽象化が進んでいる。これまでに見てきた語順の特徴量群は「主要部方向性のパラメータ」にまとめられている。この隠れ変数から観測変数たる特徴量群が生成される。

しかし、こんなおもちゃモデルを実データにあてはめることはできない。「主要部方向性のパラメータ」を導入すると、上述の QN, NA は行き場を失う。実データには例外がつきものだし、例外のない部分に対象を制限したら、重要な性質を取りこぼしてしまう。状態だけでなく、変化を考慮するならなおさら。

郡司先生は離散表現を支持しつつも、この点に触れている。

歴史的に語順が変更された言語はあり、そのような言語は変更の途中の過渡期には、両方の言い方が混っていたかもしれない。

文法の変異の連続的なふるまいは、はじめから想定外としているが、それでよいのだろうか。

そういうわけで、Murawaki (NAACL2015) では隠れ構造として連続値ベクトルを採用した。変化は連続空間上の random walk。今から考えると、ちゃんと時間の項を入れればよかった。

生成文法 (や認知科学) では、言語普遍性と人間の生得的能力を結びつけて議論しがちだが、Evans and Levinson (2009) はこの点を痛烈に批判している。私自身は割り切っていて、普遍性の原因にまで踏み込む気はない。系統推定ができれば充分だと思っている。特徴量群によって空間が構成され、個別言語はその中の点として表現される。実在の言語群を適切に汎化すると、この空間の中でごく限られた部分空間が得られる。この部分空間が人間の言語能力 (capacity) に対応しているかはわからない。言語能力的には有り得るが、たまたま人間がまだ試していない領域が存在する可能性は否定できない。系統推定の場合は、現代語のデータベースから学習される部分空間に祖語が収まってさえいればよい。

その他

特徴量間の依存関係がどうこうという以前に、1 個の特徴量しか扱っていない研究もある。Maurits and Griffiths (PNAS, 2014) は、SVO の基本語順 6 種類の遷移をモデル化している。連続時間マルコフ連鎖で 6x6=36 セルの遷移率行列を用意し、既知の系統樹からそのパラメータを学習している。使用データは WALS。この研究に限らず、認知系の人は基本語順にだけこだわっている印象がある。語順は統語関係を encode するものという思い込みがうかがえる。

明示的に状態遷移を扱わず、古典的なクラスタリング手法に頼る研究に対象を拡大すれば、さらに古いのが見つかる。Cysouw のサーベイ (2007) によれば、Gabriel Altmann の Die phonologische Profilähnlichkeit. Ein Beitrag zur Typologie phonologischer Systeme der slawischen Sprachen (1971) (未見) が一番古く、別グループの研究としては Tsunoda et al. (1995) がそれに続くようである。このあたりの文献を生物系の人はちゃんと引用していない。

Dunn et al. (Science, 2005) は maximum parsimony tree を作っている。対象はパプア諸語とオーストロネシア語族の (西) オセアニア諸語。類型論のデータは自作。2 値化された特徴量が 125 個。強い相関を示す特徴量はあらかじめ排除したという。彼らは Dunn et al. (2007) の段階で、ベイズ手法を存在を知ったらしい。長編の Dunn et al. (Language, 2008) が総仕上げ。

変わったところでは、Dunn と同じグループの Reesink et al. (2009) が、Structure という混合分布モデルのソフトに類型論のデータを突っ込んでいる。

Longobardi らの一連の研究 (いまのところ読んだのは Longobardi and Guardiano (2009) と Longobardi et al. (2013) だけ) は、一応深層構造を考えているが、変化をモデル化していない。Longobardi は生成文法の人。データベースを自作している。その代わりモデルは借りもの。対象分野をしぼれば網羅的に特徴量を列挙できて bias が生じないという主張のもと、Determiner Phrase (DP) の特徴を列挙している。対象言語はほとんどがヨーロッパ語派の言語。申し訳程度にインド・イラン語派と別系統の言語も加えている。

Longobardi らの論文からは普遍文法への篤い信仰がうかがえる。Chomsky 流に特徴量を parameter と呼んでいる。しかし、その parameter 群は、Baker (2001) と違ってあまり構造化されていない。ほとんど生の特徴量と言ってよい。基本的には + と - で 2 値化されてている。ただし、特徴量間の依存を考えており、他の parameter セットに含意されるものは 0 で表す。この 0 を考慮するような言語対の距離を定義している。結局は距離ベースのクラスタリングによって系統樹を作っている。

Longobardi らは独立変化のモデルの存在を知っている。でも、特徴量間の依存関係を指摘して、あえて採用しない。一般に、データについて知りすぎていると蛮勇に走れなくなる。これは吉と出ることも凶と出ることもある。

まとめ

これまで取り上げたモデルは以下のように整理できる。

表層モデル
- 独立
- ペア
- 複数
深層モデル

まずは表層変化を直接扱うか、背後に隠れ構造を仮定するか。表層モデルの場合は、特徴量間の依存関係の扱い方で 3 種類に細分化できる。深層モデルは複数の依存関係を考慮している。

*1:シンポジウムで発表した際に第一著者より拝領。

*2:WALS の introduction でも言及がない。しかし、そもそもこのページは Greenberg への言及すらない。考えてみたら、WALS 以前に誰がどういうデータを作っていたかまったく把握していない。

*3:Croft の講義資料を参照した。

*4:しかし直観に従って集めると根拠として弱いので、サンプリング手法を真面目に考えようという論文がいくつかあった気がするが、ちゃんと調べていない。

*5:Greenberg 自身が断っているように、これが初出ではないけど。

2015-09-08

アイヌ学入門

言語本

瀬川拓郎. 『アイヌ学入門』(2015)

アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。

本書では、主に文化面について、著者の最近の主張が提示されている。一般の、中高の教科書レベルの認識では、アイヌは縄文人がシーラカンスのように生き残ったかのように思われていそうだが、実際には大きな変化があったこと、その変化に日本が大きく関わっていることを著者は指摘する。

私にとっての新情報は後半、3章から7章までを中心に展開されている。*2 しかし、この部分については、私が著者以外の情報源を把握していないので、「へー」とか「ほー」とか間の抜けたことしか書けない。この雑記では、主に2章までの、私が他の情報源を多少は知っている部分について、コメントを書き散らす。

DNA

The history of human populations in the Japanese Archipelago inferred from genome-wide SNP data with a special reference to the Ainu and the Ryukyuan populations (Journal of Human Genetics, 2012) を引いて、「弥生時代に朝鮮半島から渡来した人びとが縄文人と交雑して和人 (本土人) になり、周縁の北海道と琉球には縄文人の特徴を色濃くもつ人びと、つまり琉球人とアイヌが残ったといいます。」(p.39) と要約しているのは少し乱暴。この研究が直接主張するのは主に次の2点。

アイヌ (平取) から見ると琉球 (沖縄本島) の方が本土 (関東) よりも遺伝的に近い
集団として、本土は、アイヌ・琉球と大陸の間に位置する

この結果が従来の二重構造モデルと整合的だと慎重に議論している。現代人の DNA を調べただけでは直接故地を推定するのは難しい。交雑の時期についても今回は推定していない。

データに関しては、平取のサンプルが本当に (北海道) アイヌ全体を代表しているかが以前から気になっている。もう一つ、アイヌとニブフの関係については、先行研究を引くのみだが、データを採って分析してほしいところ。上記論文が引いている Genetic origins of the Ainu inferred from combined DNA analyses of maternal and paternal lineages (2004) はまだちゃんと読んでいない。

ちなみに、今年になって続報が出ている。Unique characteristics of the Ainu population in Northern Japan (Journal of Human Genetics, 2015). アイヌのデータは 2012 年版と同じだが、別ソースのデータと重ねあわせている (図 2)。このデータは本土のサンプル数が 1,000 程度と大規模で、関東に限らず、各地方のデータが使われている。大きな発見は、東北は (北海道) アイヌと似ていないこと。

その先に出てくるのが 3-population test (f3) や f4-ratio test。交雑の時期や割合を推定する話だが、モデルの詳細をまだ理解していない。言語に応用できなそうなモデルだし。アイヌを縄文の代わりに、漢人や朝鮮人を弥生の代わりとして使うのは微妙ではないかという感想を海外のブログで目にした。

あとは、細かいけど気になったのが、ハプログループがミトコンドリアのみに関するものであるかのような記述 (p.44 と p.55)。

2015年10月27日追記: Choongwon Jeong, Shigeki Nakagome, and Anna Di Rienzo. Deep History of East Asian Populations Revealed Through Genetic Analysis of the Ainu. Genetics. (2015) も読んだ。同じ平取のサンプルを使っているけど、分析が違う。

アイヌのサンプルは PCA で見ると heterogeneous だけど、ADLER で admixture time を推定すると、2 pulse model で古めに見積もっても 30-40 generations ago。弥生時代はもちろん、オホーツク文化との接触と比較しても新しすぎる。
ADMIXTURE (K=8) だと、アイヌは独自クラスタ。Japanese と Ulchi にアイヌ要素が見られる。
TreeMix をやると East Asian の中で outgroup を作る。でも Itelmen-Nganasan よりも内側。アイヌ白人幻想へのカウンターにはなっている。
allele の positive selection の話が面白い。East Asian に多い EDAR V370A をアイヌの 25% しか持っていない。ただし、同じく East Asian に多い OCA2 H615R はアイヌも高頻度に持っている。APO gene cluster の positive selection が海洋生物への依存を反映している可能性を指摘。

続縄文人の南下

考古学的な詳細を知らないまま、修辞を追いかけていて気になった部分。

p.50 あたり。「オホーツク人の集落は海岸線から二キロメートル以内にしかな」い一方、「アイヌの集落は縄文時代以降近世まで、沿岸から内陸奥地にまで設けられてい」るのに、「アイヌはこれ [注: オホーツク人の南下] を避け、北海道の南半に押しこめられるかたちにな」ったのはなぜ? これだけ読むと、素朴には、沿岸を占拠されても、上流域は引き続き確保できそうなものである。オホーツク人が「クマなどの毛皮獣も多数捕獲していた」ことと関係ある?

東北のアイヌ語地名の担い手

東北のアイヌ語地名をいつ誰が残したのかという問題は、私にとってアイヌに関する最大の関心事の一つ。本書では、p.52 での導入に続き、p.70 以降で議論している。

本書は、「古墳時代の四世紀になると、北海道の続縄文文化の人びと (アイヌ) はこの [注: 本州の] 鉄製品を手に入れるために、古墳社会の前線地帯だった仙台―新潟付近まで南下していました」(p.71) とさらっと記述している。この主張にどの程度強い根拠があるのか気になる。「そのため東北地方の遺跡からは、当時の北海道と同じ土器や墓がみつかります」(p.71) と書くが、典拠を付けていない。

関連文献のうち、本書が引く (松本 2006) は未見。同じ著者による『蝦夷(えみし)とは誰か』(2011) は読んだ。それによると、「東北北部では、弥生時代後期～古墳時代中期に併行する時期、すなわち1世紀後葉～5世紀前半ころの住居は発見されていない」(p.96) が、「3世紀後半ころ～5世紀後葉までは、東北北部でも、北海道の続縄文土器とほぼ同じものが作られていた」(p.97) とのことである。北海道と東北北部が同じ文化圏に属していたというだけで、この時期に南下が起きたとは言っていない。松本は、前時代との連続性を想定しているようである。

南下を主張するには、前時代との断絶を示す必要があるように思う。

接頭辞優勢言語?

「アイヌ語は接頭辞が優勢」(p.68) という話。あまり気にしてなかったが、確かにそうだ。(中川 2010) は未見。

WALS で Feature 26A: Prefixing vs. Suffixing in Inflectional Morphology を見ると、アイヌ語は Equal prefixing and suffixing に分類されていた。ケット語は Weakly prefixing。周辺を見るとチベット・ビルマ系のギャロン語が Weakly prefixing、台湾のルカイ語とパイワン語が Equal prefixing and suffixing。

最近ケットと同系かもしれないと言われている北米のナ・デネ語族を見ると、結構接頭辞が優勢。

Slave, Tanacross, Chipewyan, Navajo が Strong prefixing
Sarcee, Hupa が Weakly prefixing
Tlingit, Apache (Western) が Equal prefixing and suffixing

最近考えている語順変化のモデルに例として使えるかもしれない。

相互理解可能性

北海道とサハリンの基礎語彙残存率が70%程度で、宮古と首里のペア*3と同程度であるから、「意思の疎通も困難なほど異なっていたというわけではありません」(p.85) という。ここで引いている (金田一, 1960c) は未見 (そればっかり...)。

相互理解可能性はそもそも 0/1 で割り切れる性質のものではないが、一般に聞く話では宮古と沖縄は相互理解不可能。それもかなり昔からそうだったらしい。1390年に宮古の与那覇勢頭豊見親が首里に朝貢したが、言葉が通じないので「怜悧の者二十名を選んで学ばせ」、3年にして言葉が通じたという (出典?)。

北海道とサハリンは実際のところどうなのだろうか?

基礎語彙残存率と相互理解可能性の相関を真面目に調べた研究は存在するのだろうか?

Bayes 系統モデル

Lee and Hasegawa (2013) を「言語年代学的にあらためて計算しなおし...」(p.87) と説明するのは変。服部四郎が採取したデータこそが言語年代学の遺産。彼らの手法は、言語年代学というか語彙統計学の研究が低迷している間に発展した進化生物学の統計的手法に由来する。正確には、進化生物学から直接借りてきたのではなく、他の研究グループがインド・ヨーロッパ語族に適用して話題になったので、同じ手法をアイヌ語に適用したもの。

「この [注: 年代] 推定をもとに考古学的な事象を解釈し、もともとサハリン方言とはオホーツク人の言語だったのであり、オホーツク人が八世紀に北海道全域へ拡散し、アイヌと融合するなかで、アイヌ語北海道方言が成立した、とのべています」(p.87) という結果の要約も変。彼らの主張は以下の通り。

縄文人にオホーツク人が強い影響を与えた結果成立したのがアイヌ人
その故地は北海道北部
現代の方言は、北海道北部の故地から北のサハリンへ、また北海道南部へ拡散することで成立

系統モデルの性質上、全子孫の共通祖先にたどり着いたら終わりで、それ以前の状態は推定しない。彼らの主張はその祖語が北海道北部で成立したというだけ。考古学的知見の解釈についても、その言語を縄文人とオホーツク人のどちらから引き継いだかについては何も言っていない。

もう少し真面目な言語学の議論で、アイヌとニブフの接触を扱ったものを最近見つけた。Alexander Vovin の On the Linguistic Prehistory of Hokkaidō。アイヌ語とニブフ語に共通する特徴 (接頭辞と語彙) を認定したうえで、主にアイヌからニブフへの借用を推測している。しかも、いくつかの要素は北海道アイヌ語にも確認され、アイヌ祖語にさかのぼるとみられる。ニブフ側も、サハリン・ニブフだけでなく、アムール・ニブフにも確認できる。このことから、オホーツク人が北海道 (のオホーツク海沿岸) でアイヌ語話者と接触したと推測している。たいした根拠があるわけではないし、話半分に聞いておくぐらいで良い。

*1:想定読者を広く設定すると仕方がないのかもしれないが、個人的には新書という形式は好きではない。引用しにくいし。典拠不明の記述が多いのも不満。本書は要所要所では文献を引いているけど。

*2:特に3章のコロポックル伝承の起源と展開が刺激的。以前、同じ著者の『コロポックルとはだれか』(2012) を読んで感心したが、本書はそこから何歩も先に議論を進めていた。

*3:「琉球語における宮古方言と首里方言」という表現が気になる。「琉球語」は存在しない。首里の言語をそう呼ぶのでないなら。そもそも「言語」と「方言」の識別に関して取り得る立場は2つある。日本語族に属する lect を分類すると taxonomy ができる。一つの立場はすべての階層のノードを「方言」と呼ぶもの。この場合、当然「琉球語」は出てこない。もう一つは、相互理解可能性という怪しげな基準を使って「言語」と「方言」を識別するもの。この場合も、具体的に何言語を認定するかは別として、それらは琉球よりも下位の階層に位置する。よって、琉球ノードは「琉球諸語」となる。どこかに「琉球語の宮古方言」を支持する立場の人がいたりするのだろうか? 「言語」と「方言」の識別は、分類学者が「科」なのか「亜科」なのかと悩むようなもので、本質的に重要な区別ではない。しかし、社会的には方言は言語よりも劣るという観念が根強いようである。ある種の質の悪い言説は、このような社会的背景を認識しているにも関わらず、「言語」の認定と危機言語の保存運動を同時に行おうとする。この言説は、方言に対する社会的偏見をむしろ強化するという点で有害である。そもそも、この手の言説は、「言語」という分類学上の階層が保存運動の単位となる階層とどう対応するかを一切説明しない。これは自明ではない。話者自身が認識するまとまりは、一般に「言語」と対応しない。おそらく、保存運動とは、進歩的な自分たちが、遅れた話者に対して、学問の権威を背景に下す神託だと考えているのだろう。

2015-08-24

基礎語彙データの所在

言語

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古・八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉球の方言基礎語彙』(1988) で補完する形でデータが作成されているから。私はこの点が不満。彼らのその後の研究動向を見るに、増補版を出してくれそうな雰囲気はない。そこで、自分で補うという選択肢を考えた。そのために利用できる文献を収集してきた。まずは文献とその調査地点を並べてみる。比較の手間を考え、ひとまず平山輝男が関わっているものに対象を限定する。*1

以下 2 冊は未調査だが、対象は宮古・八重山

平山輝男、大島一郎、中本正智『琉球先島方言の総合的研究』(1967)
平山輝男編『南琉球の方言基礎語彙』(1988)

平山輝男、大島一郎、中本正智『琉球方言の総合的研究』(1966): アクセント: 表記なし

名瀬 (奄美大島 (北))
古仁屋 (奄美大島 (南))
亀津 (徳之島)
志戸桶 (喜界島)
瀬利覚 (沖永良部島 (西))
茶花 (与論島)
辺土名 (沖縄 (北))
伊江島 (沖縄 (北))
奥武 (沖縄 (南))
平良
池間
石垣
波照間

平山輝男編『薩南諸島の総合的研究』(1969) アクセント: 音声表記 + 音韻表記

名瀬 (奄美大島 (北))
(中種子, 宮之浦, 尾之間, 黒島, 宝島)

平山輝男編著『琉球宮古島諸島方言基礎語彙の総合的研究』(1983) アクセント: 表記なし

平良
池間
長浜

平山輝男編著『奄美方言基礎語彙の研究』(1986) アクセント: 音声表記 + 音韻表記

和泊 (沖永良部島 (東))
知名 (沖永良部島 (西))
亀津 (徳之島)

平山輝男ほか編『現代日本語方言大辞典』(1992): アクセント: 音声表記 + 音韻表記

名瀬 (奄美大島 (北))
沖縄 == 国頭郡本部町
平良
池間
長浜
多良間
鳩間

その他

平山輝男、中本正智『琉球与那国方言の研究』(1964) は調査項目表を使わず辞書順に配列

結論としては、『琉球方言の総合的研究』(1966) と『奄美方言基礎語彙の研究』(1986) を組み合わせれば良さそう。これで奄美はバランスよく扱える。一方、沖縄中南部がやたら手薄なのが気にかかる。というか、「沖縄」と表記されている言語が北部のものであることに今頃になって気付いた。中本 (1981) などは、首里・那覇を中心とした周圏論的分布について度々指摘しているけど、いま手元にある平山系データだけではこれを実証しようがない。

*1:中本正智『図説琉球語辞典』(1981) などは惜しい。調査票に従っていないし、地図上にプロットするだけで、調査地点を明記していない。

2015-08-21

琉球語は虚構

言語

2024/03/01追記: 9年後に論文化。

表題は釣り。言語データの可視化について考えていて、ふと思いついたことを試してみた。具体的には、基礎語彙データに主成分分析 (PCA) を適用。

問題設定。各言語がバイナリ化された基礎語彙 (010010...) で表現されている。そうすると、言語間の類似度が適当に定義できる。また、適当に clustering すれば木が作れる。

問題意識は方言の等語線を引いてみたときと同じ。最近 (あるいは少し前まで) の流行は Bayesian な系統推定。みんな年代推定込みの系統樹を見せてくる。しかし、系統樹は重要な情報を落としてしまう。具体的には、言語の相対的な位置があまりわからない。ある言語同士が似ているか似ていないかがわからない。共通祖語までの枝の長さという 1 次元情報によって間接的に推測できるだけ。普通に可視化すれば 2 次元まで使えるから、もっと良い見せ方があるはず。

他の手法として挙がるのは、より古い NeighborNet。bottom-up な clustering をするけど、木としては conflict を起こしている部分を網状に表現する。これはこれで良いのだが、全体的な空間配置にあまり意味がない。

そういうわけで、以前は、さらに古い手法、等語線の重ねあわせを試してみた。地理的に隣接する言語同士の類似度を表示する。現実の 2 次元の地理的空間を使う。もし言語的な類似度が地理的距離と対応していなくても、それがわからない。

今回は PCA を試す。PCA を選んだ当初の動機は不純。生物系の人がとりあえず DNA に適用しているのだから、とりあえず言語に適用しても良いのではないかと。*1

もう少し真面目に説明する。言語の相対的な位置付けが 2 次元で表現できる。主成分 (PC) 2 個を使って。1 次元よりも情報が多い。しかも地理的空間ではなく、言語そのものに基づく空間。

御託を並べずにさっさと試せば良いのだが、ひとつ問題がある。基礎語彙データは基本的にバイナリ化 (0/1) されているが、欠損値 (?) がある。もちろん、適当に欠損値を補完する方法は知られている。しかし、せっかく Bayesian な系統推定をやっているのだから、その結果で補完すれば良いことに気付いた。

さらに言うと、距離に基づく clustering と異なり、Bayesian な系統推定は祖語の状態も推定している。せっかくだから、現代語と一緒に祖語も plot すれば良い。系統樹を 2 つの主成分からなる 2 次元空間に写像する。時間情報を落とすかわりに、空間配置を可視化する。

さらに前置き。そもそも過去の状態を確実に推定することはできない。この事実を反映して、Bayesian な系統推定は非常に不安定。通常は、sampling により複数の系統樹を生成し、それらを統合した木を最終的な推定結果として示す。*2この要約を行う際、木のトポロジーと年代だけを採用し、祖語の状態は落としてしまう。PCA を行うには言語の状態が必要だから、これは困る。仕方がないので、複数の sample のなかから系統樹を 1 個適当に選ぶ。一応事後確率が高いのを選んだ。*3

使った基礎語彙データは Lee and Hasegawa (2011) の日本語方言群。選んだ系統樹はこれ。

PCA の結果はこれ。

緑の点が観測データ。右上に言語名を示している。赤が祖語。ROOT にだけラベルを与えている。ノード間の線は系統樹の枝に対応。

ごちゃごちゃしている本土部分を拡大する。拡大するとノードとラベルのずれが目立つけど、補正が面倒だったのでそのまま。

現実の地理にある程度対応している。南北をひっくり返して、上下の端を折り曲げたような形。

PC1 が寄与率 34.6% で圧倒的。残りはどんぐりの背比べ。参考までに PC2, PC3 も示す。

PC1, PC2 の図に戻って、いくつか気付いた点を挙げる。

根が中央に位置し、上代語 (OJ) がその近くに控え、現代語は周辺に分散している。分岐後は別々に変化するという系統樹の仮定がマクロには成り立っているように見える。
しかしよく見ると変。ROOT から OJ, MJ (中世語) が分岐したあと、現代本土諸方言共通祖語となる。不思議なことに、この祖語が、PC1 について、ROOT からやたら離れた場所に位置する。PC1, PC2 ともに東京とほぼ重なっている。その後は本土諸方言がぐちゃぐちゃに分岐している。その中でも東北、八丈、九州がやや離れている。こいつらが、PC1 について、ROOT に近い。このような先祖返りは系統樹として不自然。
以前、言語ペアの類似度を測った際は正反対の結果が出てきた。上代語と類似するのは東京、北海道、山梨、滋賀、岐阜、栃木の順。下位は、佐賀、鹿児島、秋田、青森の順。PC1 では反対に、東北や九州が上代語に近いのである。寄与率の低い PC2 以下をかき集めると類似度が逆転するのだろう。
この一見矛盾する結果の説明を試みる。本土周縁の言語は、大局 (PC1) 的には上代語と似ているが、データを部分的にしか説明しない変化 (PC2 以下)、おそらくは影響範囲が限定的な変化が大量に起きた結果として、類似度が下がったのだろう。
中心部は、上古語と類似度が高いのに、大局的には似ていない。中心部で起きた変化は比較的少数だけど、その影響が広範囲に及んでいるのだろう。
要するに、周圏論は補足が必要そうである。これまでは単に中央から周縁に変化が広がっていくという側面だけに着目していた。実は、そうした変化は比較的起きにくく、発生頻度と影響範囲は反比例しているのではないか。

最初は小ネタのつもりだったけど、もう少し真面目に調べて論文にまとめても良い気がしてきた。

そろそろ表題を回収する。見ての通り、琉球諸方言は広範囲に散らばっている。本土の密集具合とは対照的。特に、宮古の孤立っぷりは印象的である。PC2 の寄与率が PC1 に比べて圧倒的に小さいことを考慮しても。

琉球というまとまりは、私のように比較研究をやっている者にとっては有用であっても、現実に、例えば、危機言語の保存運動をやる場合には無意味。そして、無意味なものを前面に押し出す行為 (例えばこれ) は、本質から目を背けさせるという点で有害ではないか。研究者のエゴとして、研究上重要な言語だから資源を投下して調べるというのならわかる。そうではなく、本気で社会運動をやるのなら、もっと別の戦略の立て方があるはず。その点、『日本の危機言語』は、中身は普通の言語学の議論だけど、対象範囲を日本国とする問題設定自体は良かったのではないか。

追記: せっかくなのでアイヌ語でもやってみた。Lee and Hasegawa (2013) は地理位置との同時推定を行っていたが、面倒なので言語データだけで推定。

PC1 の寄与率が脅威の 51.2%。これが北海道と樺太を説明している。宗谷の中間的な性質がきれいに出ている。

PC2 は東西対立を表している。PC3 は北海道北部とその他の対立か。

アイヌ語話者は一度も統一国家を作ったことがないし、文化の中心もなさそう。周圏論には向かない。

さらに Lee (2015) の朝鮮語データでもやってみた。

さすがに朝鮮語だとデータが貧弱。中期朝鮮語と共通祖語がほぼ同じ。全体的にはきれいに発散している。PC1 は南北対立。

PC3 は東西対立っぽいが、PC2 が謎。

再び PC1-2 を見ると、済州道と江原道で PC1 の揺り戻しが起きている。比較のために中期朝鮮語との類似度を見る。

MiddleKorean	1.000000
Gyeonggi	0.928030
SouthChungcheong	0.905522
NorthJeolla	0.897841
NorthChungcheong	0.893832
Hwanghae	0.887943
Gangwon	0.873326
NorthHamgyong	0.862525
SouthJeolla	0.861767
NorthGyeongsang	0.860565
SouthPyongan	0.856555
SouthGyeongsang	0.841726
Jeju	0.837105
NorthPyongan	0.806474
SouthHamgyong	0.799388

PC1 上では中期朝鮮語に一番近い済州が類似度では下から 3 番目。済州島で起きた改新は影響力が全然ない。

2015 年 8 月 25 日追記: せっかく Bayesian な系統推定をやっていることだし、推定の不確実性を可視化してみた。具体的には、内部ノードの状態推定は不安定なので、その不安定さを分布で示す。手順は以下の通り。

これまで通り、sample を 1 個選ぶ。
葉ノードだけを抽出し、PCA に適用。これまでは内部ノードも含む全ノードを PCA にかけていた。
これまで捨ててきた sample 集合から、指定された内部ノード (ROOT, 北海道祖語等) を抽出し、2 次元の PC 空間に写像
2 次元の PC 空間に写像された sample 群からカーネル密度推定 (一種の平滑化) で分布を推定
この確率密度関数と葉ノードを plot

まずは琉球祖語。PCA の特異値分解に葉ノードだけを使うと、PC1 の寄与率が少し下がった。

次は ROOT (日琉球祖語)。基本的には上代語に近いが、たまに琉球よりに推定されることがある。

アイヌ語の北海道祖語。

アイヌ祖語。

*1:もちろん DNA と言語ではデータの規模が違う。最近は genome-wide SNP を使うから、要素数が 10 万のオーダ。対する基礎語彙は 100 のオーダ。おまけに、DNA は個体ごと。日本人という集団を 100 人の個体で表現できる。言語では集団を 1 個のデータで代表させるしかない。まあ、PCA を使う分にはこうした違いは問題にならない。

*2:よく使われるのは、maximum clade credibility tree。

*3:BEAST が生成した系統樹群から 1 個木を抽出して PCA にかけるまでのスクリプトを github に置いておいた。

2015-07-12

文学部の潰し方

ネタ

表題は釣り。国立文系を潰そうという文科省の通知 *1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるかもしれない。大学最大の福利厚生は文学部図書室を気軽に利用できることだと思っている程度には文学部を愛している。*2

どうすれば潰せるか。文学部の業務が無価値であると示せば良い。価値のあるものは、より良い代替物を示せば良い。

大学の2大業務といえば研究と教育。*3先に研究から片付ける。

文学部の研究に価値はあるか。個人的には、自分の研究は文学部の (あるいは文学部っぽい) 研究の成果に依存している。それ以外にも、趣味で追いかけている分野もいくつかある。このあたりは潰れたら私が困る。他は、何の価値があるのか分からない分野もあるし、あるいは積極的に潰すべきだと思っている分野もある。まあ、私の価値基準が世の中一般からかなりずれていることは自覚している。私が評価しない分野を評価する人もいるだろうし、まったく価値を見出さない人もいるだろう。潰す側は当然価値を見出していないのだろう。とりあえず研究は無価値だとみなして先に進める。

残りは教育。専門科目と教養科目にわけて考える。文学部を潰そうというのだから、当然文学部の専門科目は不要となる。残りは教養科目。数学科は他学科の数学教育を請け負うことで予算を獲得しているという話 (米国の?) がある。文学部も教育を盾に生き残るという戦略が考えられるかもしれない。

しかし、振り返ってみると、京大工学部時代の自分が受けた文系教養科目の担当教員はみんな総人 (旧教養) の先生だった気がする。実は文学部討滅は既に達成できているのではないか。とりあえず欲をだして、総人の文系教員の首も狙うことにする。

大学の文系教養科目に価値はあるのだろうか。自分の過去を振り返ってもよく分からない。少なくとも、より良い代替物を示せば、このゲームは勝てそう。そのために、まずは現状の弱点を探してみる。

素朴に思うのは、教養科目は標準化できそうだということ。高校教育の延長である。専門科目 (たとえば機械学習) のように、5年で内容が陳腐化することはない。にもかかわらず、現状では、能力にばらつきがある個々の教員が1から10まで準備している (ように見える)。属人的努力は根本的解決を遠ざけるのでたちが悪い。個々人が竹槍を磨いたところで、組織が戦闘機を作って攻めてきたら勝てない。

その戦闘機候補として考えているのが MOOC。組織によって棲み分けていた教員を横に並べて競争させる。すると、一部のスターだけが生き残って残りは死ぬ。そうして生き残ったスターのコースが競争相手となる。大量生産なのでコスト面では勝負にならない。もちろん MOOC には欠点がある。焦点は、欠点を差し引いても、なおも上回る価値を持つと示せるか。

とりあえず MOOC の欠点を挙げてみる。まずは interactive 性の欠如。あるいは質問応答の難しさ。議論用の forum を作ったりして、いろいろ工夫しているようだが、根本的には解決していないように見える。次は credit の問題。自動採点でできることは限られている。人手で採点するとスケールしない。このあたりの課題が解決できれば勝てる。Facebook の deep な質問応答が劇的に進化するとか? まさか。

もう一つは言語障壁。いま MOOC で公開されているコースは、英語による講義。他の言語は翻訳。翻訳が敬遠される可能性はある。しかし、言語障壁は一時しのぎにすぎない。日本の相対的国力が急激に低下している以上、言語障壁は長くは持たない。現状ですでに、研究成果を英語で発表しなければ、存在しないのと同じである。英語に切り替えるタイミングが早いか遅いかの違いでしかない。むしろ英語であることが評価要素となる可能性すらある。

言語障壁の本丸は語学。普通の MOOC は語学が手薄のように見える。Coursera の category に Language はない。edX は Language という subject が用意されているが、コースは少ない。そもそも問題の性質上、翻訳しても意味をなさない。

語学はそれ専門のサービスがある。昔からそれこそ星の数ほどある。その中でも、duolingo は大学のコースワークの体裁を整えて攻めてきそうな雰囲気を漂わせている。

語学のもう一つの特殊性は、普通の講義だけでなく、CALL と称して、計算機を利用する講義が昔から行われていること。その点、他の科目よりも先進的だったのかもしれない。しかし、現状ですでに、duolingo と直接的に競合していることを意味する。早く対策をうたないと、CALL は赤子の手をひねるように潰されそう。しかし、そういう危機感は私の観測範囲では見えない。

考えてみると、潰す側の方が潰される側よりも権力を持っている。潰す側が代替物の優位性を示す必要はない。潰される側が自己の優位性を示せなければ潰されるのである。

その意味で、教育の良さを客観的に表す評価尺度の設計は重要。評価尺度を制するということは、ゲームのルールを決めるということ。その点 duolingo は抜かりない。自前で test center を作って、コスト面での優位性と、TOEFL スコアとの高い相関を主張している。このまま行けば、文学部側は、競合相手自身が作った評価尺度にしたがって優位性を主張しなければならなくなる。

これも先月 (2015 年 6 月) に聞いた話だが、Educational Data Mining という学会があって、今年の会議で 8 回目になるそうである。予稿集をざっと眺めた限り、そこまで驚くような成果があがっているわけではない。しかし、重要なのは進歩の枠組みに乗せてしまったということ。教育は、農業のように同じ作業の繰り返しだと一方が思って田植えをしているところに、ドローンを導入して無人化するとかいろいろ仕掛けているのである。時間とともに差が開いて、いずれ取り返しがつかなくなる。

これまた先月 (2015 年 6 月) に聞いた話だが、Deep Knowledge Tracing と称して、recurrent neural network で knowledge tracing をやった研究が arXiv に投稿されていた。*4 要するに、(-0.5, 0.2, ... 0.9) みたいな謎のベクトルを使うことで、ある時点で受講者が何をどの程度理解しているかが推定できる。これを応用すれば、どういう順番で課題を提示するかを最適化するといったことが可能になる。文学部の教員は、deep learning がバズワード化していることは知っていても、自分には関わりのないことだと思っていそう。しかし、deep learning 勢は既に教員の首にも狙いを定めている。

評価を行うためにはデータが必要となる。評価モデルをまともに動かそうと思ったら、1 科目あたり、少なく見積もっても 1,000 人分ぐらいは必要だろう。個人の努力ではどうにもならない。組織的に体制を作れるかにかかっている。個人主義の日本ではここがどうにもならず、再び敗戦を迎えることになるのだろう。

*1:柄にもなく赤旗を引いてみる。ちょっと探しただけでは、通知の原文が見つからない。どこかに全文が公開されていないのか。

*2:京大にいたころは、研究室の隣の建物が文学部図書室 (雑誌棟) という天国に近い環境だった。九大では片道1時間程度かかる別キャンパス。しかも、図書の取り寄せ貸出を依頼するには Excel シートに入力しないといけないという謎の因習が残っている。

*3:私の観測範囲では、他にも、学内ネットワークの管理業務がある。文学部にこういう特殊な業務はあるのだろうか。

*4:評価データとして数学を使っているのはわかりやすいからだろう。数学は課題ごとの独立性が強い。微分をやっても同時に積分ができるようにはならない。語学は課題の依存関係がもっとごちゃっとしていて難しいし、面白いのではないかと推測する。

2015-06-14

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

ネタ

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).

社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果として以下の 2 つを主張する。(1) 社会のエリート層において、武士 (侍) の子孫は高い相対出現率を持つ (つまり、人口の割に大きな数を占めている)、(2) しかも、世代間で高い rate で維持されている (つまり、流動性が低い)。手法はともかく、データの扱いに引っかかるところがあったので調べみた。

背景

第一著者の Gregory Clark が 2014 年に The Son Also Rises: Surnames and the History of Social Mobility というふざけた題名のモノグラフを出している (未読)。問題の論文は、この本の background working papers の一つと位置づけられている。査読を経ていない様子。この分野の慣行を知らないが、それでいいのか?

2014 年の出版直後にメディアに取り上げられていた。日本については Wall Street Journal のブログ記事が話題にし、その日本語訳 *1 が日本でも若干の注目を浴びた様子。私もこの時期にこの研究の存在を認識したが、それ以上深追いはしなかった。2015 年 5 月にモノグラフの日本語訳が『格差の世界経済史』という題名で出版され (未読)、その書評を目にした。気まぐれで、今回は少し調べてみることにした。そうすると、問題の working paper が見つかった。本自体は未読だが、論文が self-contained なので問題なかろう。

この論文は何をしたか

論文は武士と華族の 2 種類を対象としているが、この雑記では華族の部分は飛ばす。華族は雲の上すぎるし数が少なすぎる。まず武士の名字の一覧を得る。次に、その中から希少な名字の集合を選ぶ。希少な名字であれば、(近似的ではあるが) 複数世代にまたがって容易に追跡調査できるという仮定に基づいている。*2 この一群が日本の人口に占める割合が計算できる。次に、社会のエリート層 (医学研究者、弁護士、大学教授等) の名字のデータベースを得る。各データベースにおいて、問題の希少な名字の一群が占める割合が計算できる。人口に占める割合と、エリート層における割合を比較する。その結果、後者が3倍弱から6倍強という数値が得られた。つまり、この一群は、エリート層において人口の割に大きな数を占めていることになる。

ここまでで得られたのは、現代のある時点での状態。次に、長期的な動態を調べる。論文が着目したのは Google Scholar で得られる著者ごとの論文件数。論文であれば、1900 年から 2012 年までと長期的な調査ができる。希少な名字の一群は良いとして、あらゆる日本の人名を Google Scholar に投げるわけにはいかない。そこで、一般的な名字群との比較を行っている。結果、両者の割合の比は 20 世紀初頭には 12 程度あったが、長期低落傾向にあり、20 世紀の終わりには (図 6 の目測では) 5 前後まで下がっている。21 世紀に入ってからまた上がって 8 前後になっているけど、これが新たな傾向を表しているのかは不明。

結論として、日本の社会的流動性はいままで思われてきたよりもずっと低いと主張している。

データの怪しさ

武士の名字の一覧として『寛政重修諸家譜』(1812) を用いている。これは大名や旗本の家譜を幕府が編纂したもの。『寛政重修諸家譜』は国会図書館で電子的に公開されているが、索引がないと使い物にならない。論文は、高柳光寿、岡山泰四、斎木一馬による本文 22 巻 + 索引 4 巻 + 別巻 2 巻を参照している。論文は、if the descendants of the Samurai constitute 50f the modern Japanese population, then they could still constitute anywhere from 20 to 500f modern Japanese elites といった議論を展開しているが、その前提として、データが武士を代表していなければならない。ここで最初の疑問がでてくる。Q1: 『寛政重修諸家譜』が武士を代表しているという前提は正しいか? この文献は幕府と直接関係を持つ者だけを対象としており、大名の家臣は扱わない。つまり、今回の結果から、例えば「地方の名家」について妄想しても無意味ではないか。

名字の希少性の判定には PublicProfiler worldnames を用いている。脚注 5 によると電話帳に基づくという。このデータベースの信頼性はよくわからないが、先に進む。論文の希少な名字の基準は、frequency per million (FPM) of 10 or under である。*3日本の人口が約 1 億とすると、ざっと 1,000 人以下。1,000 人もいたら、武士の子孫以外も結構混じっていそう。この点も深追いはしない。とりあえず抑えておくべきは、希少性判定は漢字ではなくローマ字で行っていること。

表 A2 に (希少な) 武士の名字が列挙してある。抜粋とは書かれていないので、これで全部なのだろう。表には聞いたこともない名字が並んでいる。Doki 土岐、Domono 伴野、Efuji 江藤などは怪しい。Q2: 本当にこのローマ字表記で正しいか? 基本的にはアルファベット順に並べられている。しかし、Zakoji 座光寺のあとに Urushizaki 漆崎が来て、順番が崩れている。特別な理由はなさそうである。雑な処理をしたのではないかという疑いが湧いてくる。さらに謎なのは、Urushizaki のあとに一行あけて、A に戻っている。Aburanokoji 油小路をはじめ、公家っぽい名字が並んでいる。Ie 伊江、Nakijin 今帰仁は沖縄の尚家であって、明らかに武士ではない。Isahaya 諫早や Tanegashima 種子島は大名家の家老、つまり陪臣。どうやら明治以降の華族を武士に追加したみたい。論文にはそんな手順は書かれていない。疑惑が深まる。Q3: 本当に『寛政重修諸家譜』だけが出典なのか?

調査

Q1-3 に答えるために『寛政重修諸家譜』を自分で調べてみた。調べたのは論文と同じく、高柳他の刊本。索引 1 の「姓氏 (家名) 索引」で、名字を探し、該当する本文を確認する。

とりあえず表 A2 の先頭、Aichi から Enokishita までの 18 個をすべて調べた。『寛政重修諸家譜』には読みが振ってあった。*4 例えば、Amau 天羽は「あまう」、Efuji 江藤は「えふぢ」。いい加減に読みを推定したのではなく、原文に基づいている様子。問題の Doki 土岐は、第 5 巻と第 19 巻に掲載されていた。前者は有名な美濃源氏の土岐氏で、読みは「とき」。後者はよく分からない医者で、読みは「どき」。Toki の方は FPM が 24.94 なので無視したのだろう。Domono 伴野も同様に、「どもの」と「ともの」の 2 系統あった。しかし間違いもあった。Chikuhisa 知久は「ちく」が正しい。論文は FPM 0.04 (ヒットなし) としているが、Chiku だと FPM が 38.01 なので希少ではない。

先頭 18 個以外は目についたところだけを調べる。Fukuzue 福富は「ふくづみ」なので誤り。Kahara 河原はいずれの系統も「かはら」なので正しい。Kizuregawa 喜連川は「きつれがは」なので誤り。

ということで Q2 は片付いた。A2: 読みは基本的には正しいが、ところどころ誤っている。誤りの結果への影響はおそらく大きくないけど、信頼性に関わる。

続いて Q3 にいく。表 A2 の後半の華族っぽい名字は『寛政重修諸家譜』に載っているのか。Aburanokoji 油小路から Bojo 坊城までの 8 個を調べてみた。結果、索引に載っていたのは Anbe 安部の 1 個だけ。あと、Tanegashima 種子島も載っていなかった。由緒正しい家系だけど、江戸時代には薩摩藩の家老をやっていたので無視されたらしい。A3: 『寛政重修諸家譜』にない名字も混ぜてしまっている。そういうのやめてほしい。

最後に Q1 にかかる。Aichi から Enokishita までの 18 個の本文を読むと、いずれも幕臣。*5それも結構身分が低い。御徒から始まって多少は出世した、ぐらいのレベル。道理で聞いたことのない名字ばかりである。全体を見ると、Hitotsuyanagi 一柳が大名、喜連川 (きつれがわ) が大名扱い、Takatsukasa 鷹司 (松平) が大名だが、他は身分が低め。ピラミッド型の身分制度だから集めると下位層が大半を占めるのは自然な結果。だとすると、華族のように最上位層だけを抽出しているわけではないことになる。この点では武士を代表しているかもしれない。

しかし、調査対象の大半が江戸に住んでいる。これは強烈なバイアスになっている可能性がある。やはり、このデータは人口の 5% からのサンプルとしては不適切ではないか。社会階層とは別の解釈として、都市と地方の対立が考えられる。つまり、古くからの東京の住人が、全国平均と比較して、東京に集中しやすい職業につく傾向があるということを意味している可能性を排除できていない。ということで、A1: 『寛政重修諸家譜』は武士を代表していない可能性が高い。

結論

データ処理に粗雑なところがあって信頼性にやや疑問が残る。おそらく結果自体に大きな影響はないけど。より重大なのは、結果の解釈、あるいはそもそもの問題設定にデータが合致しているかが怪しいこと。

希少な武士の名字が都市に集中しているかは検証できると思う。名字の市町村レベルの件数を出すサイト (ただし、読みではなく漢字だけど) があるから。ネタは提供したので、誰かやってくれないかな。

*1:コメント欄があいかわらず残念なことになっている。

*2:「希少な名字ならば武士」というアホな仮定をしているわけではない。希少な名字が社会的に有利あるいは不利といった仮定をしているわけでもない。反対に、希少な名字の一群から得られた結果が母集団全体に当てはまると仮定している。

*3:私の名字の場合 FPM が 2.49 で、希少と判定される。

*4:これは国会図書館本でも確認できる。

*5:「とき」と読む希少ではない方の土岐氏は大名。一応。

murawaki の雑記

はてなグループから移転してきました