2015-07-12

文学部の潰し方

ネタ

表題は釣り。国立文系を潰そうという文科省の通知 *1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるかもしれない。大学最大の福利厚生は文学部図書室を気軽に利用できることだと思っている程度には文学部を愛している。*2

どうすれば潰せるか。文学部の業務が無価値であると示せば良い。価値のあるものは、より良い代替物を示せば良い。

大学の2大業務といえば研究と教育。*3先に研究から片付ける。

文学部の研究に価値はあるか。個人的には、自分の研究は文学部の (あるいは文学部っぽい) 研究の成果に依存している。それ以外にも、趣味で追いかけている分野もいくつかある。このあたりは潰れたら私が困る。他は、何の価値があるのか分からない分野もあるし、あるいは積極的に潰すべきだと思っている分野もある。まあ、私の価値基準が世の中一般からかなりずれていることは自覚している。私が評価しない分野を評価する人もいるだろうし、まったく価値を見出さない人もいるだろう。潰す側は当然価値を見出していないのだろう。とりあえず研究は無価値だとみなして先に進める。

残りは教育。専門科目と教養科目にわけて考える。文学部を潰そうというのだから、当然文学部の専門科目は不要となる。残りは教養科目。数学科は他学科の数学教育を請け負うことで予算を獲得しているという話 (米国の?) がある。文学部も教育を盾に生き残るという戦略が考えられるかもしれない。

しかし、振り返ってみると、京大工学部時代の自分が受けた文系教養科目の担当教員はみんな総人 (旧教養) の先生だった気がする。実は文学部討滅は既に達成できているのではないか。とりあえず欲をだして、総人の文系教員の首も狙うことにする。

大学の文系教養科目に価値はあるのだろうか。自分の過去を振り返ってもよく分からない。少なくとも、より良い代替物を示せば、このゲームは勝てそう。そのために、まずは現状の弱点を探してみる。

素朴に思うのは、教養科目は標準化できそうだということ。高校教育の延長である。専門科目 (たとえば機械学習) のように、5年で内容が陳腐化することはない。にもかかわらず、現状では、能力にばらつきがある個々の教員が1から10まで準備している (ように見える)。属人的努力は根本的解決を遠ざけるのでたちが悪い。個々人が竹槍を磨いたところで、組織が戦闘機を作って攻めてきたら勝てない。

その戦闘機候補として考えているのが MOOC。組織によって棲み分けていた教員を横に並べて競争させる。すると、一部のスターだけが生き残って残りは死ぬ。そうして生き残ったスターのコースが競争相手となる。大量生産なのでコスト面では勝負にならない。もちろん MOOC には欠点がある。焦点は、欠点を差し引いても、なおも上回る価値を持つと示せるか。

とりあえず MOOC の欠点を挙げてみる。まずは interactive 性の欠如。あるいは質問応答の難しさ。議論用の forum を作ったりして、いろいろ工夫しているようだが、根本的には解決していないように見える。次は credit の問題。自動採点でできることは限られている。人手で採点するとスケールしない。このあたりの課題が解決できれば勝てる。Facebook の deep な質問応答が劇的に進化するとか? まさか。

もう一つは言語障壁。いま MOOC で公開されているコースは、英語による講義。他の言語は翻訳。翻訳が敬遠される可能性はある。しかし、言語障壁は一時しのぎにすぎない。日本の相対的国力が急激に低下している以上、言語障壁は長くは持たない。現状ですでに、研究成果を英語で発表しなければ、存在しないのと同じである。英語に切り替えるタイミングが早いか遅いかの違いでしかない。むしろ英語であることが評価要素となる可能性すらある。

言語障壁の本丸は語学。普通の MOOC は語学が手薄のように見える。Coursera の category に Language はない。edX は Language という subject が用意されているが、コースは少ない。そもそも問題の性質上、翻訳しても意味をなさない。

語学はそれ専門のサービスがある。昔からそれこそ星の数ほどある。その中でも、duolingo は大学のコースワークの体裁を整えて攻めてきそうな雰囲気を漂わせている。

語学のもう一つの特殊性は、普通の講義だけでなく、CALL と称して、計算機を利用する講義が昔から行われていること。その点、他の科目よりも先進的だったのかもしれない。しかし、現状ですでに、duolingo と直接的に競合していることを意味する。早く対策をうたないと、CALL は赤子の手をひねるように潰されそう。しかし、そういう危機感は私の観測範囲では見えない。

考えてみると、潰す側の方が潰される側よりも権力を持っている。潰す側が代替物の優位性を示す必要はない。潰される側が自己の優位性を示せなければ潰されるのである。

その意味で、教育の良さを客観的に表す評価尺度の設計は重要。評価尺度を制するということは、ゲームのルールを決めるということ。その点 duolingo は抜かりない。自前で test center を作って、コスト面での優位性と、TOEFL スコアとの高い相関を主張している。このまま行けば、文学部側は、競合相手自身が作った評価尺度にしたがって優位性を主張しなければならなくなる。

これも先月 (2015 年 6 月) に聞いた話だが、Educational Data Mining という学会があって、今年の会議で 8 回目になるそうである。予稿集をざっと眺めた限り、そこまで驚くような成果があがっているわけではない。しかし、重要なのは進歩の枠組みに乗せてしまったということ。教育は、農業のように同じ作業の繰り返しだと一方が思って田植えをしているところに、ドローンを導入して無人化するとかいろいろ仕掛けているのである。時間とともに差が開いて、いずれ取り返しがつかなくなる。

これまた先月 (2015 年 6 月) に聞いた話だが、Deep Knowledge Tracing と称して、recurrent neural network で knowledge tracing をやった研究が arXiv に投稿されていた。*4 要するに、(-0.5, 0.2, ... 0.9) みたいな謎のベクトルを使うことで、ある時点で受講者が何をどの程度理解しているかが推定できる。これを応用すれば、どういう順番で課題を提示するかを最適化するといったことが可能になる。文学部の教員は、deep learning がバズワード化していることは知っていても、自分には関わりのないことだと思っていそう。しかし、deep learning 勢は既に教員の首にも狙いを定めている。

評価を行うためにはデータが必要となる。評価モデルをまともに動かそうと思ったら、1 科目あたり、少なく見積もっても 1,000 人分ぐらいは必要だろう。個人の努力ではどうにもならない。組織的に体制を作れるかにかかっている。個人主義の日本ではここがどうにもならず、再び敗戦を迎えることになるのだろう。

*1:柄にもなく赤旗を引いてみる。ちょっと探しただけでは、通知の原文が見つからない。どこかに全文が公開されていないのか。

*2:京大にいたころは、研究室の隣の建物が文学部図書室 (雑誌棟) という天国に近い環境だった。九大では片道1時間程度かかる別キャンパス。しかも、図書の取り寄せ貸出を依頼するには Excel シートに入力しないといけないという謎の因習が残っている。

*3:私の観測範囲では、他にも、学内ネットワークの管理業務がある。文学部にこういう特殊な業務はあるのだろうか。

*4:評価データとして数学を使っているのはわかりやすいからだろう。数学は課題ごとの独立性が強い。微分をやっても同時に積分ができるようにはならない。語学は課題の依存関係がもっとごちゃっとしていて難しいし、面白いのではないかと推測する。

2015-06-14

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

ネタ

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).

社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果として以下の 2 つを主張する。(1) 社会のエリート層において、武士 (侍) の子孫は高い相対出現率を持つ (つまり、人口の割に大きな数を占めている)、(2) しかも、世代間で高い rate で維持されている (つまり、流動性が低い)。手法はともかく、データの扱いに引っかかるところがあったので調べみた。

背景

第一著者の Gregory Clark が 2014 年に The Son Also Rises: Surnames and the History of Social Mobility というふざけた題名のモノグラフを出している (未読)。問題の論文は、この本の background working papers の一つと位置づけられている。査読を経ていない様子。この分野の慣行を知らないが、それでいいのか?

2014 年の出版直後にメディアに取り上げられていた。日本については Wall Street Journal のブログ記事が話題にし、その日本語訳 *1 が日本でも若干の注目を浴びた様子。私もこの時期にこの研究の存在を認識したが、それ以上深追いはしなかった。2015 年 5 月にモノグラフの日本語訳が『格差の世界経済史』という題名で出版され (未読)、その書評を目にした。気まぐれで、今回は少し調べてみることにした。そうすると、問題の working paper が見つかった。本自体は未読だが、論文が self-contained なので問題なかろう。

この論文は何をしたか

論文は武士と華族の 2 種類を対象としているが、この雑記では華族の部分は飛ばす。華族は雲の上すぎるし数が少なすぎる。まず武士の名字の一覧を得る。次に、その中から希少な名字の集合を選ぶ。希少な名字であれば、(近似的ではあるが) 複数世代にまたがって容易に追跡調査できるという仮定に基づいている。*2 この一群が日本の人口に占める割合が計算できる。次に、社会のエリート層 (医学研究者、弁護士、大学教授等) の名字のデータベースを得る。各データベースにおいて、問題の希少な名字の一群が占める割合が計算できる。人口に占める割合と、エリート層における割合を比較する。その結果、後者が3倍弱から6倍強という数値が得られた。つまり、この一群は、エリート層において人口の割に大きな数を占めていることになる。

ここまでで得られたのは、現代のある時点での状態。次に、長期的な動態を調べる。論文が着目したのは Google Scholar で得られる著者ごとの論文件数。論文であれば、1900 年から 2012 年までと長期的な調査ができる。希少な名字の一群は良いとして、あらゆる日本の人名を Google Scholar に投げるわけにはいかない。そこで、一般的な名字群との比較を行っている。結果、両者の割合の比は 20 世紀初頭には 12 程度あったが、長期低落傾向にあり、20 世紀の終わりには (図 6 の目測では) 5 前後まで下がっている。21 世紀に入ってからまた上がって 8 前後になっているけど、これが新たな傾向を表しているのかは不明。

結論として、日本の社会的流動性はいままで思われてきたよりもずっと低いと主張している。

データの怪しさ

武士の名字の一覧として『寛政重修諸家譜』(1812) を用いている。これは大名や旗本の家譜を幕府が編纂したもの。『寛政重修諸家譜』は国会図書館で電子的に公開されているが、索引がないと使い物にならない。論文は、高柳光寿、岡山泰四、斎木一馬による本文 22 巻 + 索引 4 巻 + 別巻 2 巻を参照している。論文は、if the descendants of the Samurai constitute 50f the modern Japanese population, then they could still constitute anywhere from 20 to 500f modern Japanese elites といった議論を展開しているが、その前提として、データが武士を代表していなければならない。ここで最初の疑問がでてくる。Q1: 『寛政重修諸家譜』が武士を代表しているという前提は正しいか? この文献は幕府と直接関係を持つ者だけを対象としており、大名の家臣は扱わない。つまり、今回の結果から、例えば「地方の名家」について妄想しても無意味ではないか。

名字の希少性の判定には PublicProfiler worldnames を用いている。脚注 5 によると電話帳に基づくという。このデータベースの信頼性はよくわからないが、先に進む。論文の希少な名字の基準は、frequency per million (FPM) of 10 or under である。*3日本の人口が約 1 億とすると、ざっと 1,000 人以下。1,000 人もいたら、武士の子孫以外も結構混じっていそう。この点も深追いはしない。とりあえず抑えておくべきは、希少性判定は漢字ではなくローマ字で行っていること。

表 A2 に (希少な) 武士の名字が列挙してある。抜粋とは書かれていないので、これで全部なのだろう。表には聞いたこともない名字が並んでいる。Doki 土岐、Domono 伴野、Efuji 江藤などは怪しい。Q2: 本当にこのローマ字表記で正しいか? 基本的にはアルファベット順に並べられている。しかし、Zakoji 座光寺のあとに Urushizaki 漆崎が来て、順番が崩れている。特別な理由はなさそうである。雑な処理をしたのではないかという疑いが湧いてくる。さらに謎なのは、Urushizaki のあとに一行あけて、A に戻っている。Aburanokoji 油小路をはじめ、公家っぽい名字が並んでいる。Ie 伊江、Nakijin 今帰仁は沖縄の尚家であって、明らかに武士ではない。Isahaya 諫早や Tanegashima 種子島は大名家の家老、つまり陪臣。どうやら明治以降の華族を武士に追加したみたい。論文にはそんな手順は書かれていない。疑惑が深まる。Q3: 本当に『寛政重修諸家譜』だけが出典なのか?

調査

Q1-3 に答えるために『寛政重修諸家譜』を自分で調べてみた。調べたのは論文と同じく、高柳他の刊本。索引 1 の「姓氏 (家名) 索引」で、名字を探し、該当する本文を確認する。

とりあえず表 A2 の先頭、Aichi から Enokishita までの 18 個をすべて調べた。『寛政重修諸家譜』には読みが振ってあった。*4 例えば、Amau 天羽は「あまう」、Efuji 江藤は「えふぢ」。いい加減に読みを推定したのではなく、原文に基づいている様子。問題の Doki 土岐は、第 5 巻と第 19 巻に掲載されていた。前者は有名な美濃源氏の土岐氏で、読みは「とき」。後者はよく分からない医者で、読みは「どき」。Toki の方は FPM が 24.94 なので無視したのだろう。Domono 伴野も同様に、「どもの」と「ともの」の 2 系統あった。しかし間違いもあった。Chikuhisa 知久は「ちく」が正しい。論文は FPM 0.04 (ヒットなし) としているが、Chiku だと FPM が 38.01 なので希少ではない。

先頭 18 個以外は目についたところだけを調べる。Fukuzue 福富は「ふくづみ」なので誤り。Kahara 河原はいずれの系統も「かはら」なので正しい。Kizuregawa 喜連川は「きつれがは」なので誤り。

ということで Q2 は片付いた。A2: 読みは基本的には正しいが、ところどころ誤っている。誤りの結果への影響はおそらく大きくないけど、信頼性に関わる。

続いて Q3 にいく。表 A2 の後半の華族っぽい名字は『寛政重修諸家譜』に載っているのか。Aburanokoji 油小路から Bojo 坊城までの 8 個を調べてみた。結果、索引に載っていたのは Anbe 安部の 1 個だけ。あと、Tanegashima 種子島も載っていなかった。由緒正しい家系だけど、江戸時代には薩摩藩の家老をやっていたので無視されたらしい。A3: 『寛政重修諸家譜』にない名字も混ぜてしまっている。そういうのやめてほしい。

最後に Q1 にかかる。Aichi から Enokishita までの 18 個の本文を読むと、いずれも幕臣。*5それも結構身分が低い。御徒から始まって多少は出世した、ぐらいのレベル。道理で聞いたことのない名字ばかりである。全体を見ると、Hitotsuyanagi 一柳が大名、喜連川 (きつれがわ) が大名扱い、Takatsukasa 鷹司 (松平) が大名だが、他は身分が低め。ピラミッド型の身分制度だから集めると下位層が大半を占めるのは自然な結果。だとすると、華族のように最上位層だけを抽出しているわけではないことになる。この点では武士を代表しているかもしれない。

しかし、調査対象の大半が江戸に住んでいる。これは強烈なバイアスになっている可能性がある。やはり、このデータは人口の 5% からのサンプルとしては不適切ではないか。社会階層とは別の解釈として、都市と地方の対立が考えられる。つまり、古くからの東京の住人が、全国平均と比較して、東京に集中しやすい職業につく傾向があるということを意味している可能性を排除できていない。ということで、A1: 『寛政重修諸家譜』は武士を代表していない可能性が高い。

結論

データ処理に粗雑なところがあって信頼性にやや疑問が残る。おそらく結果自体に大きな影響はないけど。より重大なのは、結果の解釈、あるいはそもそもの問題設定にデータが合致しているかが怪しいこと。

希少な武士の名字が都市に集中しているかは検証できると思う。名字の市町村レベルの件数を出すサイト (ただし、読みではなく漢字だけど) があるから。ネタは提供したので、誰かやってくれないかな。

*1:コメント欄があいかわらず残念なことになっている。

*2:「希少な名字ならば武士」というアホな仮定をしているわけではない。希少な名字が社会的に有利あるいは不利といった仮定をしているわけでもない。反対に、希少な名字の一群から得られた結果が母集団全体に当てはまると仮定している。

*3:私の名字の場合 FPM が 2.49 で、希少と判定される。

*4:これは国会図書館本でも確認できる。

*5:「とき」と読む希少ではない方の土岐氏は大名。一応。

2015-04-28

何をもって知能とするか

ネタ

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。

背景

2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、SF か何かから出てきた singularity 業界が騒ぎ出した (らしいことを私は認知した)。その後、2013 年あたりから Deep Learning というバズワードが流行りだして、ますます楽しそうにしている (らしい)。「らしい」というのは自分で深く追いかけていないから。人工知能 *1の実際の研究と関わりのないところで展開されている。Michael Jordan や Yann LeCun のような大御所もこの話題には冷淡。

singularity 業界は人工知能の現状を知らない。そもそも、人工知能は何ができて何ができないかという現状認識について、研究者と世の中の間で大きな断絶がある。大きなニュースが続いた結果、実態を伴わない期待が膨れ上がっている。日本でも、人工知能業界の有名研究者が一般紙に出て、期待を煽り立てている (ように見える)。日経新聞でも読んでそうな、決定権を持っている人たちを動かそうという意図を感じる。そうやって、研究コミュニティを護送船団的に守ろうとしているように見える。その一方で、同じ研究者が、別の機会には、人工知能にまつわる誤解をとこうと奮闘していたりする。自分で煽り立てながら火消しもする、因果な商売である。Michael Jordan や Yann LeCun もそうだが、長く研究を続けてきた人は冬の時代を経験している。過剰な期待が失望にかわり、再び予算的に干上がることを恐れている。私はもちろん護送船団を率いる立場にはない。でも、世間の誤解は私にとってもリスクではある。偉い人が誤解に基づいて予算を配分し、やりたくもないことをやらされ、その結果失望されるなんて悪夢である。

何が問題か

singularity 業界は、計算機の知能が人間を上回る可能性ばかりを考えている。特に、計算機が自身よりも知的な計算機を複製できるようになれば、知能が加速度的に増幅する、と思っている。おそらく、研究の中心が論理推論だった時代の印象を引きずっている。知能を合理性や科学的な正しさといったものと漠然と結びつけている。でも、人間の知能はそういうものではない。少なくとも、それだけではない。

例から入る。Deep Learning によって急激に性能が向上した分野といえば画像認識*2。画像認識は、例えば、猫が写っている画像を入力して、そこに写っているのが猫だと計算機に認識させるタスク。何を計算機に教え込めばそんなことが可能になるか想像もできないかもしれない。でも、最近では、データセットによっては人間に勝ったという報告すらある。技術の進展は恐ろしい。

しかし、落ち着いて考えてみてほしい。画像認識ができたら知的といえるだろうか。そんなことは猿にでもできる。いや、もっと原始的な動物にだってできる。

Deep Learning が成功したもう一つの分野は音声認識。音声認識は音響モデルと言語モデルを組み合わせおり、特に Deep Learning が効いたのは前者、つまり、音声信号と記号列を対応づける部分。これぐらいの能力は、人間以外の動物にも備わっているだろう。

こうして人間以外の動物を考慮するとわかる。最近の人工知能が実現したものは、「知能」という言葉から一般に想像されるものからずれている。とはいえ、画像認識も音声認識も商業的な需要があふれている。計算機は賢くなったと宣伝しなければならない。お金を握っている連中に対して、「猿が実現できました」なんて口が裂けても言えない。まさに POISON。

Watson はどうか。あれは連想ゲームを奇形的に発達させたものだと思えばよい*3。例えば、This 'Father of Our Country' didn't really chop down a cherry tree. という設問を考える。どうやって答えの George Washington を導くか。This 'Father of Our Country' という句から、人についての質問だと推定できる。Father of Our Country、chop down a cherry tree といった句で文書を検索して、結果から人を抽出して、適当に順位づけするといった具合。

あれはあれでそれなりに商業的な需要があるのだろう。しかし、あんなもので言葉を理解したことにはならない。あれを見て偉い人が誤解すると困る。実際にはまだ実現できていないものができた扱いになると、それを本当に実現しようとする研究が潰されてしまう。現に、ビッグデータという別のバズワードと渾然一体となって、実用化一辺倒の体制に予算的に誘導されている。生きづらい。

記号幻想

上で、singularity 業界は人工知能研究が論理推論をやっていた時代の印象を引きずっていると書いた。ここで昔の研究を振り返ってみる。内容的に去年の記事と重複あり。

意味というものをどう扱えばよいか、誰も正解を知らなかった。これは今でもわからない。論理業界では、概念にとりあえず atomic な記号を与える。猫に Cat とか。そして記号同士の関係を記述する。Cat は Mammal と is-a 関係にあるとか。そうした関係に基づいて推論を行う。このやり方には 2 つ課題がある。一つは素朴な論理体系だと簡単に破綻する。どういう体系を設計するか。もう一つは、knowledge acquisition bottleneck と呼ばれる問題。この世界の知識をとても記述しきれない*4。

後者の知識記述については、自然言語のテキストから獲得するという方向で研究が進んできた。そうした研究はここ 10 年ぐらい流行っていた。特にウェブテキストが大量に手に入るようになってから。私もかつて手を出した。しかし、そろそろ限界だと思う。話は簡単。仮に記号の数を N=10 万とする。単純な事態に対応するのが「A が B を P する」という 3 つ組だとすると、組み合わせは O(N^3)。それなりに面白い推論をやろうと思ったら、「A が B を P すると D が E を Q する」といった事態間関係の知識も必要。そうなると O(N^6)。~~数え上げおねえさんも涙目である。~~*5しかも、言語は冪乗則に従う。高頻度な語はわずかで、低頻度な語が大量にある。当然、低頻度な語の組み合わせも大量に出てくる。いくらテキストを集めても被覆できない。そうした未知の表現でも人間は問題なく理解できる。しかし、計算機は困る。従来研究がどうしてきたかというと、上位下位関係等を使って式の汎化を行ってきた。しかし、そもそも記号を atomic に扱うところに限界があるように感じている。

テキストからの知識獲得を試みている時点で、古き良き人工知能像とは決別している。合理性や科学的な正しさから程遠い場所に来ている。テキストに書かれているのは、正しさとして一般に想像されるものとは違う。いろんな人がよく言っている何かでしかない。既に述べたように、そもそも現状では知識の整理があまりうまくいっていないが、仮にうまくいったとする。それでも、三段論法を使おうと思っても、大前提が真か偽かも怪しいし、小前提も怪しいし、だから結論も怪しい。計算機の中でぐるぐる推論をまわすと、仮に出発点が真であっても、数 hop 先は信頼度が著しく低いものになってしまう。

結局、この世界を正確に写像したものを計算機が持つことなんてできないし、正しい規則に基づいてこの世界の未来を予測することもできない。信頼できない観測と、信頼できない知識を使って、信頼できない planning をするしかない。その点では人工知能は人間と変わらない。

2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。

テキストの限界

上で Deep Learning に触れた際に意図的に飛ばした話題に、意味の分散表現がある。King - Man + Woman ≒ Queen の例で有名になったアレである。こういう結果を見ると、意味というものに過剰に思い入れを投影しそうになる。しかし、落ち着いてモデルの式を見ると、やっていることは目的関数の最適化。目的関数を最大化 (最小化) するような何かを学習しているに過ぎない。例えば、評判分析で学習しているのは、意味の中でも極性 (positive か negative か) に関わる部分だけ。multi-task learning で、複数のタスクで共通の意味表現を用いる試みもあったが、あまりうまくいかないと聞く*6。学習しているものが、タスクごとに全然別々なのだろう。現状では、意味というものを包括的に捉えることはできていないように思う。

猿を作ろう

やはり自然言語処理は画像認識や音声認識とは性質が違う*7。画像認識や音声認識には多少なりとも生物的な基盤があるが、自然言語処理にはない。砂上の楼閣というか、砂の上にすら建っておらず、ふわふわと浮かんでいる感じ。もちろん人工知能を作るために人間を模さなければならないとは限らない。でも、テキストという人間の生成物を利用するのであれば、人間がやっていることからかけ離れたやり方で知能を実現できるとは思えない。

自然言語がいつ誕生したかには定説がない。仮に 20 万年前だとする。明らかなのは、進化の過程で、自然言語よりも知能が先行すること。言語が誕生した時点では、エピソード記憶や手続き記憶を当然備えていたはず。再帰的な操作もできるようになっていたのではないか。言語より前に、伝えたい意味を人間は持っていただろうし、相手が伝えたいことを推測する能力も持っていた。言語の意味解析をやろうとすると、言語から意味への一方向の写像を考えがちだけど、おそらくそれだけでは無理。音声認識における言語モデルのように、意味側で自然さを考慮する (相手の伝えたいことを推測する) モデルが必要。テキストの世界に閉じたまま意味を捉えるのは無理がある*8。

結局何が言いたいかというと、人間を上回る知能を妄想する前に、まず猿、特に人間に近いゴリラやチンパンジーの知能を実現することを考えた方が良い。それを実現することが科学の大きな進歩だという認識が広がってほしい。そして、すぐに役に立たなさそうに見えても予算的に締め上げないでほしい。

仮に猿が実現できて、次に人間を実現しようとなったとき、最初にできるのは高度な知能と一般に想像されるものではないだろう。むしろ、次々と迷信を生み出すような何かのはず。人間を上回る知能なんて、そういうものが実現できてから考えれば良い。そういう基盤ができれば、科学的手続きをどうエミュレートするかといった問題に取り組めるようになって、科学哲学系の議論に実体を与えられるようになるかもしれない。

*1:ふと思いついて調べてみたところ、「人工知能」という言葉を自分で書いた日本語論文で一度も使ったことがない。

*2:画像認識は私の専門ではない。ディープ・ラーニングと画像処理・画像解析セミナーというスライドが私にような門外漢にもわかりやすい。

*3:もちろん私は Watson の詳細を知る立場にない。地道な言語処理研究の積み重ねであることは間違いない。しかし、それはここでは重要ではない。

*4:知識の記述を何十年も延々と続けているプロジェクトも存在する。

*5:2015 年 5 月 7 日追記: O(N^6) 程度では数え上げお姉さんは涙目にならないとのツッコミを頂戴した。元のビデオを確認した。ご指摘の通りだった。

*6:非公式に聞いた。残念ながら negative result は論文にならないことが多いので。

*7:精度面でも、両者は違う。自然言語処理では、Deep Learning 系の手法は既存手法の性能を大幅に上回るということが基本的にない。良くても同等か、少し上回る程度。

*8:もしかしたら言語と画像との対応を学習するのは近似としては有望かもしれない。

2015-04-08

Modelling the Spatial Dynamics of Culture Spreading in the Presence of Cultural Strongholds

言語

Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.

物理屋さんによる言語の論文。先月、物理屋さんの研究会で発表したときに教えてもらった。last author の所属大学が私の現在の所属と同じ。意外と近くに似たことをやっている人がいるものである。言語の研究者は背景がばらけすぎ。サーベイが足りてなくても、石を投げずにあたたかく見守ってほしい。あと、この論文は英語が独特。

方言周圏論をシミュレーションで再現している。online demo がある。しかし、Java がブラウザから追放されるこのご時世に applet はつらい。

蝸牛考とアホ・バカ分布図に言及した上で、京都を中心とした語の分布を作ろうとする。なぜか Gray et al. の Science 論文を引用しているが、系統樹を作るという発想は最初から最後まで出てこない。普通はそうだろう。

シミュレーションの中身は簡単。要旨に Eden growth process という聞きなれない用語が出てきて身構えたけど。

日本列島に格子をあてはめ、各点を方言のノードとする。新語は京都でしか発生しない。その発生頻度は $f_{\textrm word}$ で制御する。語は隣接ノードに対して伝播していく。どのノードを更新するかの決定はランダム。選んだノードに対する更新は決定的。新しい語が古い語をかならず置き換える。シミュレーションの結果、東西の辺境に古語が残存するという期待通りの分布 (図 2 左) が得られている。

シミュレーションの悩みとして、パラメータ設定の根拠がとぼしいというものがある。こうやって日本地図で分布を可視化することで、パラメータを調整するのはありかもしれない。この論文の場合、モデルを少し変更し、新しい語がかならずしも古い語を置き換えない場合も試している。その結果 (図 3)、分布がまばらになっている。この結果はおそらくあまり自然ではない。この結果は、語借用の要因として「威信」があることの傍証にならないか。

この研究への不満は、京都を中心とした伝播しか考えないこと。方言周圏論の背景には、新村出あたりが言い出した、方言の東西対立があったはず。研究史をちゃんと確認してないけど。柳田國男が大々的に着目したのは、東側の特徴が九州等の西側の辺境でも見つかる場合があること。改新の年代差が地方差に反映されるとは一般に言えても、それが具体的にどういう分布になるかは一概には言えない。方言の東西対立という枠組みがつぶれたわけでもない。例えば、「からい」と「しょっぱい」の東西対立の場合、東日本の「しょっぱい」の方が新しい。

やはり、モデルに最初から京都を特別扱いさせるのはうれしくない。こうした前提抜きでシミュレーションを行い、結果として周辺論的分布がたまに得られると良い。そのためには、均質なノードからなるグリッドでは都合が悪い。ノード自体に大小をつけるのか、ノードの間隔を不均一にするか、とにかく文化的中心が中心となるような仕組みが必要。それを言い出すと、隣接ノードとしか通信しないのも怪しい。15km や 30km といったノード間隔は、人間の行動範囲と比較して微妙なところ。おそらく前近代であっても、道沿いのリレーで伝播したとは限らない。多少離れていたとしても、ハブとなる町と直接通信することで伝播した場合も多かったのではないか。そういう実験をやってみたので、前近代の人口データを誰か作ってほしい。

2015-03-05

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

言語

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).

ここしばらく連続して雑記に言語ネタを投下してきた。たぶんこれで最後。

内容は表題の通り。インド・ヨーロッパ (印欧) 語族の祖語の年代を推定。結果は、印欧祖語の故地に関する 2 大仮説、アナトリア説とクルガン (steppe) 説のうち、クルガン説を支持。これは、アナトリア説を支持する Mapping the Origins and Expansion of the Indo-European Language Family を含む Gray & Atkinson 系の研究への反論になっている。

forthcoming articles として案内されているのには気付いていた。いつのまにか preprint が公開されていた。

著者は 4 人とも Berkeley 所属。第1著者、第2著者、第4著者は言語学の人。第3著者は Dan Klein の NLP グループの人で、音変化の統計モデル (Bouchard-Côté et al. PNAS 2013) にも関わっていた。この種の論文にはだいたい生物進化系の人が入っているものだが、今回はいない。

一つの論文に言語学と統計モデルのガチな議論が同居している。ヴェーダ語 (いわゆるサンスクリットだが、仏典のそれよりも前の段階) からロマ語にかけての語の意味変化の議論と、不等式の証明に同時にお目にかかることはまずない。しかも第1著者(?) が自分で BEAST (系統推定のソフト) を改造している。BEAST はモジュール化されているとはいえ、お化けみたいなプログラム。生物系で提案されたモデルを片っ端から実装しているから。言語学が本職の人間がいじるなんて信じがたい。

計算モデルを使う Gray & Atkinson 系の研究を批判する言語系の人はいままでもいたけど、はるか遠くから石を投げていた。それでは当たらない。Chang et al. は射程距離まで近づいてマサカリを投げている。これは直撃して死ぬ。

Chang et al. は地理位置は扱わず、年代だけを議論している。印欧祖語の年代は、アナトリア説だと 9500-8000 BP (before present, 現代からN年前)、クルガン説だと 6500-5500 BP。Gray & Atkinson 系の研究はアナトリア説を支持していた。仮にクルガン説が正しいとすると、モデルが祖語の年代を実際よりも古く見積もり過ぎということになる。Chang et al. は、何が原因でそうなったかをデータとモデルの特性にそくして議論している。

モデルの動作のおさらい

年代付きの系統樹を作る。モデルの仮定するところでは、祖語から分岐を繰り返して現代語にいたる。推論はこの逆を行う。現代から過去に向かって言語群を合流させていき、最後の 1 個になったらそれが印欧祖語。*1各言語は、語を持っている (1) か持っていないか (0) に従い 010001... のようなバイナリ列で表現される。2 つの言語 A, B を共通祖語 P に合流させるには、語の誕生 (0→1)、死亡 (1→0) が P → A, P → B で起きたと考え、A, B 間の差を吸収しないといけない。この誕生、死亡が時間に対してどの程度の確率で起きるかを制御する遷移率パラメータをモデルが持っている。

枝の長さ、つまり分岐してからの時間が長いほど、多くの変化が起きやすい。反対に、多くの変化が起きているなら、それに応じて枝をのばした方が自然な解釈になる。

遷移率の値はモデルがデータから推定する。そのために必要なのが calibration (較正)。系統樹の途中の地点が絶対年代でどのぐらいなのかをモデルに与える。例えば、(英語やドイツ語などの共通祖先である) 西ゲルマン祖語の年代は 1550 BP あたりだと指定する。そうすると、このソフトな制約を満たすような良い感じの遷移率をモデルが推定する。要は、言語がどれぐらいの速度で変化するかが学習される。それをさらに過去に延長していくと印欧祖語にたどり着く。

calibration は印欧語族の場合少し特殊。世界のたいていの語族では現代語のデータしか手に入らないが、印欧語族は資料に恵まれている。古英語、ラテン語、ヴェーダ語、ヒッタイト語のような古代語のデータが (不完全だとしても) 得られる。そこで、例えば、古英語のデータを追加するとともに、その年代をおよそ 1000 BP と指定する。より印欧祖語に近い古いデータを追加するほど、変化速度や祖語の状態の推定が確実になると期待して。

この古代語の扱いが、やや直観に反するところでもある。従来手法では、古代語を系統樹の葉ノードにする。ヒッタイト語のように滅んだ言語ならともかく、古英語は子孫として (現代) 英語を持っている。それでも葉ノード扱いする。普通に系統推定を行うと、英語は古英語と最初に合流するので、英語・古英語共通祖語というべきノードが作られる。

後で見るように、Chang et al. はこの部分をいじっている。従来のように古英語を英語の兄弟扱いするのではなく、英語の直接の過去の状態として扱う。表題の ancestry-constrained phylogenetic analysis はこの改造を指す。

Gray & Atkinson 系の研究の何が問題だったのか

Chang et al. の議論は多岐にわたるが、一番重要なものだけ紹介。まずデータの特性を取り上げる。次にそれをモデルがどう解釈するかを見る。

データの中で問題となるのは homoplasy, drift, precursor, advergence といった用語で説明される現象。この現象自体は以前から知られていた。私も自分の以前の発表でこの現象の存在には触れたが、ひとまず例外として無視できると思っていた。ところが Chang et al. は無視できないことを示している。

そもそも言語ノードの表現、010001... のようなバイナリ列をどうやって作ったか。まず、ある概念を表す語を言語ごとに集める。次に言語同士を比較して、語源が共通する語をまとめる。209-210ページの例を使うと、leg という概念を表す語は、ヴェーダ語で jáṅghā、ベンガル語で pā、マラーティー語で pāy、ギリシア語で pódi、ペルシア語で pā。これらは語源的に2つにまとめられ、ヴェーダ語以外は共通する。そうすると、pā 系の語に関して、各言語はそれぞれ 0、1、1、1、1 と表される。

しかしここに罠がある。実はベンガル語の pā に対応するサンスクリット形 pád が存在し、印欧祖語 *pod- にさかのぼる。しかし pád は leg ではなく foot を意味する。実は、foot → leg の意味変化はありふれており、インド語派以外にもギリシア語やイラン語派で独立に起きている。このように、別々の起きた現象によって同じ (似た) 状態にいたることを homoplasy と呼んでいる。生物進化系の用語。

この現象をもう少し考える。homoplasy を起こすには、単に foot → leg の意味変化が系統樹の複数の箇所で起きるだけでは駄目。foot を表す語も共有していてはじめて homoplasy になる。これを precursor と呼んでいる。さらに、子孫たちと外側の言語で 1 がたっているのに、祖先の状態が 0 という現象を advergence と呼んでいる。

この現象が結構広範囲に観測できることを Chang et al. は示している。現代語のビット列のうち、7% の要素は homoplasy に該当するという。Swadesh 以来の議論で、基礎語彙は借用 (水平伝播) しにくいということになっていたが、homoplasy の方が借用よりも影響が大きいことになる。

homoplasy がモデルの推論にどのような影響があるか。まず、現実の遷移を確認しておく。(注: ここから先の例は私が自分で作っているので間違いがあるかも)*2 leg の pā 形の語の場合は以下の通り。本当は二分木だけど、簡単のために途中のノードを省略。

共通祖語(0) → ヴェーダ語 (0)
共通祖語 (0) → インド祖語 (0) → ベンガル語 (1)
共通祖語 (0) → インド祖語 (0) → マラーティー語 (1)
共通祖語 (0) → イラン祖語 (0) → ペルシア語語 (1)
共通祖語 (0) → ギリシア祖語 (0) → ギリシア語 (1)

つまり、ありこちで 0→1 の変化が起きている。しかし、一般に少ない変化で説明する方が、モデル的には自然。よって以下のような遷移を好む。

共通祖語 (1) → ヴェーダ語 (0)
共通祖語 (1) → インド祖語 (1) → ベンガル語 (1)
共通祖語 (1) → インド祖語 (1) → マラーティー語 (1)
共通祖語 (1) → イラン祖語 (1) → ペルシア語語 (1)
共通祖語 (1) → ギリシア祖語 (1) → ギリシア語 (1)

ここで仮に共通祖語と言ったが、これは何か。トカラ語とアナトリア語派が leg の意味で pā 形の語を持たないことを考えると、非ヒッタイト・非トカラ系の共通祖語だろう。だとすると、モデルはおそらく次のような変化を推定するだろう。

印欧祖語 (0) → 非ヒッタイト共通祖語 (0) → 非ヒッタイト・非トカラ共通祖語 (1)

場合によっては、印欧祖語 → 非ヒッタイト共通祖語までさかのぼらせるかもしれない。いずれにせよ、変化を実際よりも古い段階に持っていくことになる。

要するに、homoplasy は以下のバイアスを引き起こす。

変化率を実際より低く見積もる
変化を実際より古い段階に先送り(?)する

この2つはいずれも祖語の年代を古く推定する効果を持つ。

Ancestry constraints

そこで導入されるのが ancestry constraints。ヴェーダ語をベンガル語、マラーティー語の祖先とみなす。すると、強制的に以下の遷移が実現される。*3

共通祖語 (0?1?) → ヴェーダ語 (0) → ベンガル語 (1)
共通祖語 (0?1?) → ヴェーダ語 (0) → マラーティー語 (1)

そうすると、変化率が不当に低く推定される問題は解消される。変化も新しい段階で起きたことになる。よって制約を入れない場合にくらべて新しい祖語の年代が推定される。共通祖語の状態が正しく推定されるかはわからない。

Chang et al. は、他にもいろんな要因を考えている。式 (8)*4 の diagram がその一部をまとめている。結論としては、アナトリア説よりもクルガン説を支持する新しめの年代が推定される。

印欧語族は古代語の資料が豊富にあるからそれで良いだろうけど、他の語族ではどうしようもなさそう。

古代語データの扱い方

印欧祖語の故地の問題は、放っておいても他の人が議論してくれる。ここでは古代語データの扱い方を考える。他の言語への応用を意識して。

既に述べたように、従来手法では、古代語を系統樹の葉ノードにする。だから、英語と古英語の他に、英語・古英語共通祖語のノードを作らないといけない。

Chang et al. が問題にしたのは、共通祖語から古代語への枝がやたら長い場合があること。Bouckaert et al. (2012) の結果で見ると、極端なのが古アイルランド語。古アイルランド語、アイルランド語A、スコットランド・ゲール語の共通祖語から古アイルランド語への枝が 1,000 年近い長さ。この結果を素直に解釈すると、古アイルランド語と同時代に、相当程度分化した兄弟言語が存在し、それが生き延びて現代語になったということ。直感的にはそんなはずがない。Chang et al. はこの点を 3 節で議論している。主に資料が豊富なラテン語を例に。

モデルの振る舞いを見ると、古代語 → 現代語の遷移で起きたはずの変化が、(1) 現代語・古代語共通祖語 → 現代語、(2) 現代語・古代語共通祖語 ← 古代語という2つの枝に分割されている。この現象を jogging と呼んでいる。走る方のジョギングと同じ語だけど、急に折り曲がるといった意味。

jogging の存在自体には私も気付いていた。けれど、単にモデルが推定をミスっているのだろうという以上に掘り下げることはなかった。こうして鮮やかに説明されると、他の現象も説明できるのではないかという気になってくる。

jogging のような現象は他のデータでも起きている。以前紹介した日本語諸方言の場合も、上代語が他の本土方言と合流するまでに約 200 年の枝がのびている。歴史を考えると、京都、奈良あたりの直接的な祖先であって欲しいところだけど。

ただし、その原因は Chang et al. が議論したような homoplasy ではないだろう。同じ変化が独立に複数回起きたのではない。一度だけ発生した変化が、木の制約に反して、いわゆる水平伝播によって広まったという従来通りの見方で良いだろう。しかし、具体的にどういう仕組みでこうなったのか。いまのところ、うまく説明できる仮説を持ちあわせていない。基礎語彙の一致率で上代語と他の言語をソートすると、上位に中古語、東京、北海道、山梨、滋賀と並んで、関西諸方言が思ったよりも遠いという結果にヒントがありそう。

*1:実際にはこんな決定的な操作を行うわけではない。

*2:ここでは、最初の言語的説明の際に出てきた leg の例をモデルの説明にも使った。leg は影響が広範囲な場合だが、Chang et al. はモデルの説明の際にはもう少しミクロな振る舞いに着目している。

*3:一度死んだ語が復活していることになる。このような振る舞いは確率的 Dollo モデルでは扱えない。Dollo モデルでは、語の誕生が系統樹上で一度しか起きないから。

*4:式なのか?

2015-02-26

Rate of language evolution is affected by population size

言語

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.

言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss により測る。結果。gain 率は人口が大きいほど高く、逆に loss 率は小さいほど高い。gain/loss をあわせた変化率には人口との相関はなさそう。

私が念頭に置いているのは琉球諸方言とアイスランド語。琉球諸方言は短期間に変化しすぎで、かつ分化しすぎのように見える。*1 一方、同じ島でも、アイスランド語は冗談みたいに保守的。この現象をどう説明するか。

変化速度に影響を与えるのはどういう要因で、その結果速くなるのか遅くなるのか。これまでいろんな仮説が提起されてきた。しかし、仮説を集めてみると、てんでバラバラ。これは Bromham et al. が最初の段落でまとめている通り。なぜこんなことになっているのか。議論が定量的でなかったから。定量的でなかったのは、そのためのデータの確保が難しいから。Bromham et al. の貢献は、データのお膳立ての方法を考えて、とにかく定量的議論に持ち込んだこと。

Bromham et al. はオーストロネシア語族のポリネシア諸語を使う。ポリネシア諸語には良い条件がそろっている。まず島であること。人口や対応する面積などが求めやすい。地続きの場合にくらべて孤立している。さらに祖語の年代として考古学の知見が使える。有人化の歴史が比較的新しいから。最後に基礎語彙が Austronesian Basic Vocabulary Database *2 として整備されている。

手法。いつものように cognacy 判定により語彙をバイナリ化。語の誕生 (gain, 0→1)、死亡 (loss, 1→0) が遷移率パラメータによって確率的に決まるモデル。普通の系統推定問題だと、このパラメータ以外にも求めるべき隠れ状態がいっぱいある。系統樹のトポロジーとか祖語の年代とか祖語の状態とか。今回はそのあたりを全部観測状態にして、遷移率だけを求める。さらにその遷移率が線形回帰となっている。回帰のパラメータに人口が入っている。対応する重みが人口が影響度合い。「gain 率は人口が大きいほど高い」というのは、人口パラメータに対して正の重みが推定されたということ。

データのお膳立ての方法。Bromham et al. は sister-pairs approach と呼んでいる。まず木を扱わない。言語のペアだけを考える。しかも一番近い親戚同士のみを考える。おかげで他の言語が介入する余地がない。現代語のペア A, B とその共通祖語 P だけで完結する。祖語の年代は考古学的に与える。祖語の状態も確定させる。ここが少し tricky。まず A, B で状態が異なる場合のみに着目する。A が 0、B が 1 とする。ここで、A, B 以外の言語を調べる。もし該当単語を持つ言語があるなら、P が 1 で、A が lost したとみなす。なければ、P が 0、B が gain したとみなす。

祖語の状態の割り当てにはいろんな仮定がおかれている。まず、P から分岐したあとは、A, B は独立に変化したと考える。これ自体は系統モデル一般の仮定。水平伝播はモデルの仮定に反する。次に、ある語の誕生は系統樹上で一度しか起きない。この点で確率的 Dollo モデル風。しかし、Dollo モデルなら、死亡は系統樹上の複数の箇所で起きる。つまり、P が 1 で、A, B 両方で並行的に lost して 0 になることがあり得る。今回のモデルはこの場合を考慮していない。*3

一番重要な結果は既に述べた。結果の他の部分も少し見る。図 3 にデータの fitting の度合いが図示されている。見た感じ、それほど fit してなさそう。

モデルの variant をいろいろ試しているがパッとしない。人口動態を変化させても効かない。最初に入植した世代で語をいくつか強制的に lost させても効かない。この結果は意外。遺伝学用語でアレだが、founder effect 的なことはありえるのではないかと思っていた。*4 例えば、宮古や八重山に入植したのは小集団で、その人口の小ささゆえに初期に急激な変化が起きたのではないかと。今回の結果は、そうした仮説を特に支持しない。

さて、結果を疑ってみる。まず考えるのはデータ採取のバイアス。基礎語彙の調査票に従って、該当する意味を表す語を集めている。複数の語が該当する場合は複数採取。仮に小言語ほど保存状態が悪く、マイナーな語を採取し損ないやすいとする。その場合、話者が少ないほど loss 率が高いのは、データ採取の失敗で説明できるかもしれない。

次。得られた知見が仮に正しいとして、どこまで一般化できるか。ポリネシア諸語以外にもあてはまるか。具体的には 2 点。1 点目は、印欧語族のような普通の地続きの言語にも当てはまるか。2 点目はマクロな動態であり、ミクロな場合に当てはまるか。ポリネシア諸語の場合、距離にして数千キロ、時間にして 300 から 1,000 年。*5時間的には琉球諸方言とも比較できそうだが、距離が全然違う。系統樹を仮定するので水平伝播が多いとまずい。しかし、中本正智に著作を読むと、琉球諸方言の語彙はかなりの程度方言周圏論的な語彙拡散で説明できそうである。本土→首里・那覇→八重山といった流れが、系統上の分岐以降に頻繁に起きていた場合、モデルの仮定が成り立たない。

一番の疑問は、人口の扱い方がこれで良いか。言語を離散的に認定して、その言語の話者を数えれば良いのだろうか。うまく説明できないが、現状では、言語の認定の恣意性が効いていそう。同じ話者数だったとしても、内部で均一な場合と、分化しつつあるが別言語と認定するほどではない場合は違うのではないか。集団内の動態、個々の話者が接触する人口、例えば、通婚圏とかが効きそう。琉球諸方言とアイスランド語の違いは、そうしたところに求められそうな気がする。しかし、そうしたことを言い出すと、データがないという最初の問題に舞い戻る。

*1:適当に言っているだけでなく、そろそろ真面目に検証しないといけない。

*2:著者の Greenhill がこれの中の人

*3:ついでに言えば、P から A の間に、誕生と死亡が両方起きて、ノード上では観測できない語の存在も無視している。

*4:しかし、このアナロジーは微妙。founder effect で遺伝子の多様性が失われるのは、遺伝子の変異が集団の中で分散して保持されているから。集団から小さなサンプルを取り出すと、漏れたり、頻度が偏ったりする。しかし、語彙、特に基礎語彙は個々人が一揃い保持している。人間をサンプルしても、それだけでは語彙の多様性は失われないはず。Atkinson による phoneme の serial founder effect 仮説が直感的にあり得ないのも同じ理由。

*5:サモアだけ例外的に 3,000 年。

2015-02-20

Evolved structure of language shows lineage-specific trends in word-order universals

言語

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).

類型論の特徴量がどのように時間変化するかに最近取り組んでいたが、この先行研究を見逃していた。Dunn et al. は類型論の特徴量の中でも語順だけを扱っている。特徴量間に依存関係がある (例えば、語順が VO 型なら前置詞を使う) ことが指摘されている。疑問は、これが本当に普遍的に成り立つか。Dunn et al. の主張は、こうした依存は普遍的ではないというもの。要するに Greenberg と Chomsky に挑戦している。

類型論の従来手法は、世界中の言語からサンプルを取って調べる。実験統制という点でやや雑。言語同士が系統的に、あるいは地域的に関連している可能性がある。何らかの普遍性によって共通するのではなく、別の要因が効いている可能性を排除できているか怪しい。

Dunn et al. は全然違うやり方。語族内の変化を考える。つまり与えられた系統に沿った時間変化をモデル化する。例によって、遷移率行列を用意する。特徴量はバイナリだとすると 2x2 の行列。これに時間をかけて、exponential の肩にのせると連続時間マルコフ連鎖のできあがり。

調べる特徴量は 8 個だけ。しかも一度に 2 個の特徴量しか考えない。モデルは 2 種類。独立モデルと依存モデル。モデル同士を Bayes factor で比較して、依存モデルが充分に勝っていれば特徴量間に依存があると解釈。

独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。

依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。バイナリ特徴量の組だと 2x2=4 の状態。遷移率行列は 4x4。ただし、00 → 11, 01 → 10 みたいに 1 度に両方の特徴量を変化させるのは許さない。よって 4x4=16 セルのうち、4 セルは 0。パラメータに制約を加えれば、依存モデルは独立モデルになる。

原理的には 3 個以上の特徴量を考えられないわけではない。しかし組み合わせ爆発を起こすから現実的でない。

結果。Austronesian, Bantu, Indo-European, Uto-Aztecan の 4 つの木に対して別々に推論を行った結果、発見された依存が語族によってばらばらだった。だから、linguistic universals なんて嘘っぱちだと主張。

しかし、この結果は当然ではないか。4K から 9K 年ぐらいの語族の時間幅にくらべて、特徴量の変化が珍しすぎる。図 1 を見ても予想がつくが、語順はそう何度も変化するわけでない。デフォルトで 0 回。1 回、多くても 2 回ぐらいが限度。Bantu なんて、語族内ですべての言語が同じ値をとる特徴量があるせいで、一部の特徴量の組しか扱えていない。たまたま変化が多めに観測できた語族では依存が確認でき、そうでなかったら確認できなかったというだけではないか。

語族ごとに遷移率行列をわけるのではなく、パラメータを共有させてみたい。そうすれば低頻度性の問題は緩和できそう。分析に使った BayesTraits が別グループのツールだから自由に拡張できないのだろうか。もしそういうつまらない問題が原因でやっていないのだったら嫌だな。

追記: Croft et al. Greenbergian universals, diachrony, and statistical analyses. Linguistic Typology 15 (2011) で既に批判されていた。低頻度問題は 4.3 節で議論されている。4.5 節の議論は、語族間でパラメータを共有させるという私の提案と似ている。survey が全然足りてない。

追記: Linguistic Typology の同じ号に他にも反論が載っている。1st author ではないけど Hal Daumé III の名前もあった。

2015年9月15日追記: Dunn らの再反論 (筆頭著者が Levinson に代わっているが) も面白い。突っ込みどころ満載だけど。

murawaki の雑記

はてなグループから移転してきました