murawaki の雑記

はてなグループから移転してきました

アイヌ学入門


瀬川拓郎. 『アイヌ学入門』(2015)

アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。

本書では、主に文化面について、著者の最近の主張が提示されている。一般の、中高の教科書レベルの認識では、アイヌ縄文人シーラカンスのように生き残ったかのように思われていそうだが、実際には大きな変化があったこと、その変化に日本が大きく関わっていることを著者は指摘する。

私にとっての新情報は後半、3章から7章までを中心に展開されている。*2 しかし、この部分については、私が著者以外の情報源を把握していないので、「へー」とか「ほー」とか間の抜けたことしか書けない。この雑記では、主に2章までの、私が他の情報源を多少は知っている部分について、コメントを書き散らす。

DNA

The history of human populations in the Japanese Archipelago inferred from genome-wide SNP data with a special reference to the Ainu and the Ryukyuan populations (Journal of Human Genetics, 2012) を引いて、「弥生時代朝鮮半島から渡来した人びとが縄文人と交雑して和人 (本土人) になり、周縁の北海道と琉球には縄文人の特徴を色濃くもつ人びと、つまり琉球人とアイヌが残ったといいます。」(p.39) と要約しているのは少し乱暴。この研究が直接主張するのは主に次の2点。

この結果が従来の二重構造モデルと整合的だと慎重に議論している。現代人の DNA を調べただけでは直接故地を推定するのは難しい。交雑の時期についても今回は推定していない。

データに関しては、平取のサンプルが本当に (北海道) アイヌ全体を代表しているかが以前から気になっている。もう一つ、アイヌとニブフの関係については、先行研究を引くのみだが、データを採って分析してほしいところ。上記論文が引いている Genetic origins of the Ainu inferred from combined DNA analyses of maternal and paternal lineages (2004) はまだちゃんと読んでいない。

ちなみに、今年になって続報が出ている。Unique characteristics of the Ainu population in Northern Japan (Journal of Human Genetics, 2015). アイヌのデータは 2012 年版と同じだが、別ソースのデータと重ねあわせている (図 2)。このデータは本土のサンプル数が 1,000 程度と大規模で、関東に限らず、各地方のデータが使われている。大きな発見は、東北は (北海道) アイヌと似ていないこと。

その先に出てくるのが 3-population test (f3) や f4-ratio test。交雑の時期や割合を推定する話だが、モデルの詳細をまだ理解していない。言語に応用できなそうなモデルだし。アイヌを縄文の代わりに、漢人朝鮮人を弥生の代わりとして使うのは微妙ではないかという感想を海外のブログで目にした。

あとは、細かいけど気になったのが、ハプログループがミトコンドリアのみに関するものであるかのような記述 (p.44 と p.55)。

2015年10月27日追記: Choongwon Jeong, Shigeki Nakagome, and Anna Di Rienzo. Deep History of East Asian Populations Revealed Through Genetic Analysis of the Ainu. Genetics. (2015) も読んだ。同じ平取のサンプルを使っているけど、分析が違う。

  • アイヌのサンプルは PCA で見ると heterogeneous だけど、ADLER で admixture time を推定すると、2 pulse model で古めに見積もっても 30-40 generations ago。弥生時代はもちろん、オホーツク文化との接触と比較しても新しすぎる。
  • ADMIXTURE (K=8) だと、アイヌは独自クラスタ。Japanese と Ulchi にアイヌ要素が見られる。
  • TreeMix をやると East Asian の中で outgroup を作る。でも Itelmen-Nganasan よりも内側。アイヌ白人幻想へのカウンターにはなっている。
  • allele の positive selection の話が面白い。East Asian に多い EDAR V370A をアイヌの 25% しか持っていない。ただし、同じく East Asian に多い OCA2 H615R はアイヌも高頻度に持っている。APO gene cluster の positive selection が海洋生物への依存を反映している可能性を指摘。

縄文人の南下

考古学的な詳細を知らないまま、修辞を追いかけていて気になった部分。

p.50 あたり。「オホーツク人の集落は海岸線から二キロメートル以内にしかな」い一方、「アイヌの集落は縄文時代以降近世まで、沿岸から内陸奥地にまで設けられてい」るのに、「アイヌはこれ [注: オホーツク人の南下] を避け、北海道の南半に押しこめられるかたちにな」ったのはなぜ? これだけ読むと、素朴には、沿岸を占拠されても、上流域は引き続き確保できそうなものである。オホーツク人が「クマなどの毛皮獣も多数捕獲していた」ことと関係ある?

東北のアイヌ語地名の担い手

東北のアイヌ語地名をいつ誰が残したのかという問題は、私にとってアイヌに関する最大の関心事の一つ。本書では、p.52 での導入に続き、p.70 以降で議論している。

本書は、「古墳時代の四世紀になると、北海道の続縄文文化の人びと (アイヌ) はこの [注: 本州の] 鉄製品を手に入れるために、古墳社会の前線地帯だった仙台―新潟付近まで南下していました」(p.71) とさらっと記述している。この主張にどの程度強い根拠があるのか気になる。「そのため東北地方の遺跡からは、当時の北海道と同じ土器や墓がみつかります」(p.71) と書くが、典拠を付けていない。

関連文献のうち、本書が引く (松本 2006) は未見。同じ著者による『蝦夷(えみし)とは誰か』(2011) は読んだ。それによると、「東北北部では、弥生時代後期~古墳時代中期に併行する時期、すなわち1世紀後葉~5世紀前半ころの住居は発見されていない」(p.96) が、「3世紀後半ころ~5世紀後葉までは、東北北部でも、北海道の続縄文土器とほぼ同じものが作られていた」(p.97) とのことである。北海道と東北北部が同じ文化圏に属していたというだけで、この時期に南下が起きたとは言っていない。松本は、前時代との連続性を想定しているようである。

南下を主張するには、前時代との断絶を示す必要があるように思う。

接頭辞優勢言語?

アイヌ語は接頭辞が優勢」(p.68) という話。あまり気にしてなかったが、確かにそうだ。(中川 2010) は未見。

WALS で Feature 26A: Prefixing vs. Suffixing in Inflectional Morphology を見ると、アイヌ語は Equal prefixing and suffixing に分類されていた。ケット語は Weakly prefixing。周辺を見るとチベットビルマ系のギャロン語が Weakly prefixing、台湾のルカイ語とパイワン語が Equal prefixing and suffixing。

最近ケットと同系かもしれないと言われている北米のナ・デネ語族を見ると、結構接頭辞が優勢。

  • Slave, Tanacross, Chipewyan, Navajo が Strong prefixing
  • Sarcee, Hupa が Weakly prefixing
  • Tlingit, Apache (Western) が Equal prefixing and suffixing

最近考えている語順変化のモデルに例として使えるかもしれない。

相互理解可能性

北海道とサハリンの基礎語彙残存率が70%程度で、宮古首里のペア*3と同程度であるから、「意思の疎通も困難なほど異なっていたというわけではありません」(p.85) という。ここで引いている (金田一, 1960c) は未見 (そればっかり...)。

相互理解可能性はそもそも 0/1 で割り切れる性質のものではないが、一般に聞く話では宮古と沖縄は相互理解不可能。それもかなり昔からそうだったらしい。1390年に宮古の与那覇勢頭豊見親が首里朝貢したが、言葉が通じないので「怜悧の者二十名を選んで学ばせ」、3年にして言葉が通じたという (出典?)。

北海道とサハリンは実際のところどうなのだろうか?

基礎語彙残存率と相互理解可能性の相関を真面目に調べた研究は存在するのだろうか?

Bayes 系統モデル

Lee and Hasegawa (2013) を「言語年代学的にあらためて計算しなおし...」(p.87) と説明するのは変。服部四郎が採取したデータこそが言語年代学の遺産。彼らの手法は、言語年代学というか語彙統計学の研究が低迷している間に発展した進化生物学の統計的手法に由来する。正確には、進化生物学から直接借りてきたのではなく、他の研究グループがインド・ヨーロッパ語族に適用して話題になったので、同じ手法をアイヌ語に適用したもの。

「この [注: 年代] 推定をもとに考古学的な事象を解釈し、もともとサハリン方言とはオホーツク人の言語だったのであり、オホーツク人が八世紀に北海道全域へ拡散し、アイヌと融合するなかで、アイヌ語北海道方言が成立した、とのべています」(p.87) という結果の要約も変。彼らの主張は以下の通り。

  • 縄文人にオホーツク人が強い影響を与えた結果成立したのがアイヌ
  • その故地は北海道北部
  • 現代の方言は、北海道北部の故地から北のサハリンへ、また北海道南部へ拡散することで成立

系統モデルの性質上、全子孫の共通祖先にたどり着いたら終わりで、それ以前の状態は推定しない。彼らの主張はその祖語が北海道北部で成立したというだけ。考古学的知見の解釈についても、その言語を縄文人とオホーツク人のどちらから引き継いだかについては何も言っていない。

もう少し真面目な言語学の議論で、アイヌとニブフの接触を扱ったものを最近見つけた。Alexander Vovin の On the Linguistic Prehistory of Hokkaidōアイヌ語とニブフ語に共通する特徴 (接頭辞と語彙) を認定したうえで、主にアイヌからニブフへの借用を推測している。しかも、いくつかの要素は北海道アイヌ語にも確認され、アイヌ祖語にさかのぼるとみられる。ニブフ側も、サハリン・ニブフだけでなく、アムール・ニブフにも確認できる。このことから、オホーツク人が北海道 (のオホーツク海沿岸) でアイヌ語話者と接触したと推測している。たいした根拠があるわけではないし、話半分に聞いておくぐらいで良い。

*1:想定読者を広く設定すると仕方がないのかもしれないが、個人的には新書という形式は好きではない。引用しにくいし。典拠不明の記述が多いのも不満。本書は要所要所では文献を引いているけど。

*2:特に3章のコロポックル伝承の起源と展開が刺激的。以前、同じ著者の『コロポックルとはだれか』(2012) を読んで感心したが、本書はそこから何歩も先に議論を進めていた。

*3:琉球語における宮古方言と首里方言」という表現が気になる。「琉球語」は存在しない。首里の言語をそう呼ぶのでないなら。そもそも「言語」と「方言」の識別に関して取り得る立場は2つある。日本語族に属する lect を分類すると taxonomy ができる。一つの立場はすべての階層のノードを「方言」と呼ぶもの。この場合、当然「琉球語」は出てこない。もう一つは、相互理解可能性という怪しげな基準を使って「言語」と「方言」を識別するもの。この場合も、具体的に何言語を認定するかは別として、それらは琉球よりも下位の階層に位置する。よって、琉球ノードは「琉球語」となる。どこかに「琉球語宮古方言」を支持する立場の人がいたりするのだろうか? 「言語」と「方言」の識別は、分類学者が「科」なのか「亜科」なのかと悩むようなもので、本質的に重要な区別ではない。しかし、社会的には方言は言語よりも劣るという観念が根強いようである。ある種の質の悪い言説は、このような社会的背景を認識しているにも関わらず、「言語」の認定と危機言語の保存運動を同時に行おうとする。この言説は、方言に対する社会的偏見をむしろ強化するという点で有害である。そもそも、この手の言説は、「言語」という分類学上の階層が保存運動の単位となる階層とどう対応するかを一切説明しない。これは自明ではない。話者自身が認識するまとまりは、一般に「言語」と対応しない。おそらく、保存運動とは、進歩的な自分たちが、遅れた話者に対して、学問の権威を背景に下す神託だと考えているのだろう。

基礎語彙データの所在

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉球の方言基礎語彙』(1988) で補完する形でデータが作成されているから。私はこの点が不満。彼らのその後の研究動向を見るに、増補版を出してくれそうな雰囲気はない。そこで、自分で補うという選択肢を考えた。そのために利用できる文献を収集してきた。まずは文献とその調査地点を並べてみる。比較の手間を考え、ひとまず平山輝男が関わっているものに対象を限定する。*1

以下 2 冊は未調査だが、対象は宮古八重山

平山輝男、大島一郎、中本正智琉球方言の総合的研究』(1966): アクセント: 表記なし

平山輝男編『薩南諸島の総合的研究』(1969) アクセント: 音声表記 + 音韻表記

  • 名瀬 (奄美大島 (北))
  • (中種子, 宮之浦, 尾之間, 黒島, 宝島)

平山輝男編著『琉球宮古島諸島方言基礎語彙の総合的研究』(1983) アクセント: 表記なし

  • 平良
  • 池間
  • 長浜

平山輝男編著『奄美方言基礎語彙の研究』(1986) アクセント: 音声表記 + 音韻表記

平山輝男ほか編『現代日本語方言大辞典』(1992): アクセント: 音声表記 + 音韻表記

その他

結論としては、『琉球方言の総合的研究』(1966) と『奄美方言基礎語彙の研究』(1986) を組み合わせれば良さそう。これで奄美はバランスよく扱える。一方、沖縄中南部がやたら手薄なのが気にかかる。というか、「沖縄」と表記されている言語が北部のものであることに今頃になって気付いた。中本 (1981) などは、首里那覇を中心とした周圏論的分布について度々指摘しているけど、いま手元にある平山系データだけではこれを実証しようがない。

*1:中本正智『図説 琉球語辞典』(1981) などは惜しい。調査票に従っていないし、地図上にプロットするだけで、調査地点を明記していない。

琉球語は虚構

2024/03/01追記: 9年後に論文化

表題は釣り。言語データの可視化について考えていて、ふと思いついたことを試してみた。具体的には、基礎語彙データに主成分分析 (PCA) を適用。

問題設定。各言語がバイナリ化された基礎語彙 (010010...) で表現されている。そうすると、言語間の類似度が適当に定義できる。また、適当に clustering すれば木が作れる。

問題意識は方言の等語線を引いてみたときと同じ。最近 (あるいは少し前まで) の流行は Bayesian な系統推定。みんな年代推定込みの系統樹を見せてくる。しかし、系統樹は重要な情報を落としてしまう。具体的には、言語の相対的な位置があまりわからない。ある言語同士が似ているか似ていないかがわからない。共通祖語までの枝の長さという 1 次元情報によって間接的に推測できるだけ。普通に可視化すれば 2 次元まで使えるから、もっと良い見せ方があるはず。

他の手法として挙がるのは、より古い NeighborNet。bottom-up な clustering をするけど、木としては conflict を起こしている部分を網状に表現する。これはこれで良いのだが、全体的な空間配置にあまり意味がない。

そういうわけで、以前は、さらに古い手法、等語線の重ねあわせを試してみた。地理的に隣接する言語同士の類似度を表示する。現実の 2 次元の地理的空間を使う。もし言語的な類似度が地理的距離と対応していなくても、それがわからない。

今回は PCA を試す。PCA を選んだ当初の動機は不純。生物系の人がとりあえず DNA に適用しているのだから、とりあえず言語に適用しても良いのではないかと。*1

もう少し真面目に説明する。言語の相対的な位置付けが 2 次元で表現できる。主成分 (PC) 2 個を使って。1 次元よりも情報が多い。しかも地理的空間ではなく、言語そのものに基づく空間。

御託を並べずにさっさと試せば良いのだが、ひとつ問題がある。基礎語彙データは基本的にバイナリ化 (0/1) されているが、欠損値 (?) がある。もちろん、適当に欠損値を補完する方法は知られている。しかし、せっかく Bayesian な系統推定をやっているのだから、その結果で補完すれば良いことに気付いた。

さらに言うと、距離に基づく clustering と異なり、Bayesian な系統推定は祖語の状態も推定している。せっかくだから、現代語と一緒に祖語も plot すれば良い。系統樹を 2 つの主成分からなる 2 次元空間に写像する。時間情報を落とすかわりに、空間配置を可視化する。

さらに前置き。そもそも過去の状態を確実に推定することはできない。この事実を反映して、Bayesian な系統推定は非常に不安定。通常は、sampling により複数の系統樹を生成し、それらを統合した木を最終的な推定結果として示す。*2この要約を行う際、木のトポロジーと年代だけを採用し、祖語の状態は落としてしまう。PCA を行うには言語の状態が必要だから、これは困る。仕方がないので、複数の sample のなかから系統樹を 1 個適当に選ぶ。一応事後確率が高いのを選んだ。*3

使った基礎語彙データは Lee and Hasegawa (2011) の日本語方言群。選んだ系統樹はこれ。

PCA の結果はこれ。

緑の点が観測データ。右上に言語名を示している。赤が祖語。ROOT にだけラベルを与えている。ノード間の線は系統樹の枝に対応。

ごちゃごちゃしている本土部分を拡大する。拡大するとノードとラベルのずれが目立つけど、補正が面倒だったのでそのまま。

現実の地理にある程度対応している。南北をひっくり返して、上下の端を折り曲げたような形。

PC1 が寄与率 34.6% で圧倒的。残りはどんぐりの背比べ。参考までに PC2, PC3 も示す。

PC1, PC2 の図に戻って、いくつか気付いた点を挙げる。

  • 根が中央に位置し、上代語 (OJ) がその近くに控え、現代語は周辺に分散している。分岐後は別々に変化するという系統樹の仮定がマクロには成り立っているように見える。
  • しかしよく見ると変。ROOT から OJ, MJ (中世語) が分岐したあと、現代本土諸方言共通祖語となる。不思議なことに、この祖語が、PC1 について、ROOT からやたら離れた場所に位置する。PC1, PC2 ともに東京とほぼ重なっている。その後は本土諸方言がぐちゃぐちゃに分岐している。その中でも東北、八丈、九州がやや離れている。こいつらが、PC1 について、ROOT に近い。このような先祖返りは系統樹として不自然。
  • 以前、言語ペアの類似度を測った際は正反対の結果が出てきた。上代語と類似するのは東京、北海道、山梨、滋賀、岐阜、栃木の順。下位は、佐賀、鹿児島、秋田、青森の順。PC1 では反対に、東北や九州が上代語に近いのである。寄与率の低い PC2 以下をかき集めると類似度が逆転するのだろう。
  • この一見矛盾する結果の説明を試みる。本土周縁の言語は、大局 (PC1) 的には上代語と似ているが、データを部分的にしか説明しない変化 (PC2 以下)、おそらくは影響範囲が限定的な変化が大量に起きた結果として、類似度が下がったのだろう。
  • 中心部は、上古語と類似度が高いのに、大局的には似ていない。中心部で起きた変化は比較的少数だけど、その影響が広範囲に及んでいるのだろう。
  • 要するに、周圏論は補足が必要そうである。これまでは単に中央から周縁に変化が広がっていくという側面だけに着目していた。実は、そうした変化は比較的起きにくく、発生頻度と影響範囲は反比例しているのではないか。

最初は小ネタのつもりだったけど、もう少し真面目に調べて論文にまとめても良い気がしてきた。


そろそろ表題を回収する。見ての通り、琉球諸方言は広範囲に散らばっている。本土の密集具合とは対照的。特に、宮古の孤立っぷりは印象的である。PC2 の寄与率が PC1 に比べて圧倒的に小さいことを考慮しても。

琉球というまとまりは、私のように比較研究をやっている者にとっては有用であっても、現実に、例えば、危機言語の保存運動をやる場合には無意味。そして、無意味なものを前面に押し出す行為 (例えばこれ) は、本質から目を背けさせるという点で有害ではないか。研究者のエゴとして、研究上重要な言語だから資源を投下して調べるというのならわかる。そうではなく、本気で社会運動をやるのなら、もっと別の戦略の立て方があるはず。その点、『日本の危機言語』は、中身は普通の言語学の議論だけど、対象範囲を日本国とする問題設定自体は良かったのではないか。

追記: せっかくなのでアイヌ語でもやってみた。Lee and Hasegawa (2013) は地理位置との同時推定を行っていたが、面倒なので言語データだけで推定。

PC1 の寄与率が脅威の 51.2%。これが北海道と樺太を説明している。宗谷の中間的な性質がきれいに出ている。

PC2 は東西対立を表している。PC3 は北海道北部とその他の対立か。

アイヌ語話者は一度も統一国家を作ったことがないし、文化の中心もなさそう。周圏論には向かない。

さらに Lee (2015)朝鮮語データでもやってみた。

さすがに朝鮮語だとデータが貧弱。中期朝鮮語と共通祖語がほぼ同じ。全体的にはきれいに発散している。PC1 は南北対立。

PC3 は東西対立っぽいが、PC2 が謎。

再び PC1-2 を見ると、済州道と江原道で PC1 の揺り戻しが起きている。比較のために中期朝鮮語との類似度を見る。

MiddleKorean 1.000000
Gyeonggi 0.928030
SouthChungcheong 0.905522
NorthJeolla 0.897841
NorthChungcheong 0.893832
Hwanghae 0.887943
Gangwon 0.873326
NorthHamgyong 0.862525
SouthJeolla 0.861767
NorthGyeongsang 0.860565
SouthPyongan 0.856555
SouthGyeongsang 0.841726
Jeju 0.837105
NorthPyongan 0.806474
SouthHamgyong 0.799388

PC1 上では中期朝鮮語に一番近い済州が類似度では下から 3 番目。済州島で起きた改新は影響力が全然ない。

2015 年 8 月 25 日追記: せっかく Bayesian な系統推定をやっていることだし、推定の不確実性を可視化してみた。具体的には、内部ノードの状態推定は不安定なので、その不安定さを分布で示す。手順は以下の通り。

  • これまで通り、sample を 1 個選ぶ。
  • 葉ノードだけを抽出し、PCA に適用。これまでは内部ノードも含む全ノードを PCA にかけていた。
  • これまで捨ててきた sample 集合から、指定された内部ノード (ROOT, 北海道祖語等) を抽出し、2 次元の PC 空間に写像
  • 2 次元の PC 空間に写像された sample 群からカーネル密度推定 (一種の平滑化) で分布を推定
  • この確率密度関数と葉ノードを plot

まずは琉球祖語。PCA の特異値分解に葉ノードだけを使うと、PC1 の寄与率が少し下がった。

次は ROOT (日琉球祖語)。基本的には上代語に近いが、たまに琉球よりに推定されることがある。

アイヌ語の北海道祖語。

アイヌ祖語。

*1:もちろん DNA と言語ではデータの規模が違う。最近は genome-wide SNP を使うから、要素数が 10 万のオーダ。対する基礎語彙は 100 のオーダ。おまけに、DNA は個体ごと。日本人という集団を 100 人の個体で表現できる。言語では集団を 1 個のデータで代表させるしかない。まあ、PCA を使う分にはこうした違いは問題にならない。

*2:よく使われるのは、maximum clade credibility tree。

*3:BEAST が生成した系統樹群から 1 個木を抽出して PCA にかけるまでのスクリプトgithub に置いておいた。

文学部の潰し方

表題は釣り。国立文系を潰そうという文科省の通知*1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるかもしれない。大学最大の福利厚生は文学部図書室を気軽に利用できることだと思っている程度には文学部を愛している。*2

どうすれば潰せるか。文学部の業務が無価値であると示せば良い。価値のあるものは、より良い代替物を示せば良い。

大学の2大業務といえば研究と教育。*3先に研究から片付ける。

文学部の研究に価値はあるか。個人的には、自分の研究は文学部の (あるいは文学部っぽい) 研究の成果に依存している。それ以外にも、趣味で追いかけている分野もいくつかある。このあたりは潰れたら私が困る。他は、何の価値があるのか分からない分野もあるし、あるいは積極的に潰すべきだと思っている分野もある。まあ、私の価値基準が世の中一般からかなりずれていることは自覚している。私が評価しない分野を評価する人もいるだろうし、まったく価値を見出さない人もいるだろう。潰す側は当然価値を見出していないのだろう。とりあえず研究は無価値だとみなして先に進める。

残りは教育。専門科目と教養科目にわけて考える。文学部を潰そうというのだから、当然文学部の専門科目は不要となる。残りは教養科目。数学科は他学科の数学教育を請け負うことで予算を獲得しているという話 (米国の?) がある。文学部も教育を盾に生き残るという戦略が考えられるかもしれない。

しかし、振り返ってみると、京大工学部時代の自分が受けた文系教養科目の担当教員はみんな総人 (旧教養) の先生だった気がする。実は文学部討滅は既に達成できているのではないか。とりあえず欲をだして、総人の文系教員の首も狙うことにする。

大学の文系教養科目に価値はあるのだろうか。自分の過去を振り返ってもよく分からない。少なくとも、より良い代替物を示せば、このゲームは勝てそう。そのために、まずは現状の弱点を探してみる。

素朴に思うのは、教養科目は標準化できそうだということ。高校教育の延長である。専門科目 (たとえば機械学習) のように、5年で内容が陳腐化することはない。にもかかわらず、現状では、能力にばらつきがある個々の教員が1から10まで準備している (ように見える)。属人的努力は根本的解決を遠ざけるのでたちが悪い。個々人が竹槍を磨いたところで、組織が戦闘機を作って攻めてきたら勝てない。

その戦闘機候補として考えているのが MOOC。組織によって棲み分けていた教員を横に並べて競争させる。すると、一部のスターだけが生き残って残りは死ぬ。そうして生き残ったスターのコースが競争相手となる。大量生産なのでコスト面では勝負にならない。もちろん MOOC には欠点がある。焦点は、欠点を差し引いても、なおも上回る価値を持つと示せるか。

とりあえず MOOC の欠点を挙げてみる。まずは interactive 性の欠如。あるいは質問応答の難しさ。議論用の forum を作ったりして、いろいろ工夫しているようだが、根本的には解決していないように見える。次は credit の問題。自動採点でできることは限られている。人手で採点するとスケールしない。このあたりの課題が解決できれば勝てる。Facebook の deep な質問応答が劇的に進化するとか? まさか。

もう一つは言語障壁。いま MOOC で公開されているコースは、英語による講義。他の言語は翻訳。翻訳が敬遠される可能性はある。しかし、言語障壁は一時しのぎにすぎない。日本の相対的国力が急激に低下している以上、言語障壁は長くは持たない。現状ですでに、研究成果を英語で発表しなければ、存在しないのと同じである。英語に切り替えるタイミングが早いか遅いかの違いでしかない。むしろ英語であることが評価要素となる可能性すらある。

言語障壁の本丸は語学。普通の MOOC は語学が手薄のように見える。Coursera の category に Language はない。edX は Language という subject が用意されているが、コースは少ない。そもそも問題の性質上、翻訳しても意味をなさない。

語学はそれ専門のサービスがある。昔からそれこそ星の数ほどある。その中でも、duolingo大学のコースワークの体裁を整えて攻めてきそうな雰囲気を漂わせている。

語学のもう一つの特殊性は、普通の講義だけでなく、CALL と称して、計算機を利用する講義が昔から行われていること。その点、他の科目よりも先進的だったのかもしれない。しかし、現状ですでに、duolingo と直接的に競合していることを意味する。早く対策をうたないと、CALL は赤子の手をひねるように潰されそう。しかし、そういう危機感は私の観測範囲では見えない。

考えてみると、潰す側の方が潰される側よりも権力を持っている。潰す側が代替物の優位性を示す必要はない。潰される側が自己の優位性を示せなければ潰されるのである。

その意味で、教育の良さを客観的に表す評価尺度の設計は重要。評価尺度を制するということは、ゲームのルールを決めるということ。その点 duolingo は抜かりない。自前で test center を作って、コスト面での優位性と、TOEFL スコアとの高い相関を主張している。このまま行けば、文学部側は、競合相手自身が作った評価尺度にしたがって優位性を主張しなければならなくなる。

これも先月 (2015 年 6 月) に聞いた話だが、Educational Data Mining という学会があって、今年の会議で 8 回目になるそうである。予稿集をざっと眺めた限り、そこまで驚くような成果があがっているわけではない。しかし、重要なのは進歩の枠組みに乗せてしまったということ。教育は、農業のように同じ作業の繰り返しだと一方が思って田植えをしているところに、ドローンを導入して無人化するとかいろいろ仕掛けているのである。時間とともに差が開いて、いずれ取り返しがつかなくなる。

これまた先月 (2015 年 6 月) に聞いた話だが、Deep Knowledge Tracing と称して、recurrent neural network で knowledge tracing をやった研究が arXiv に投稿されていた。*4 要するに、(-0.5, 0.2, ... 0.9) みたいな謎のベクトルを使うことで、ある時点で受講者が何をどの程度理解しているかが推定できる。これを応用すれば、どういう順番で課題を提示するかを最適化するといったことが可能になる。文学部の教員は、deep learningバズワード化していることは知っていても、自分には関わりのないことだと思っていそう。しかし、deep learning 勢は既に教員の首にも狙いを定めている。

評価を行うためにはデータが必要となる。評価モデルをまともに動かそうと思ったら、1 科目あたり、少なく見積もっても 1,000 人分ぐらいは必要だろう。個人の努力ではどうにもならない。組織的に体制を作れるかにかかっている。個人主義の日本ではここがどうにもならず、再び敗戦を迎えることになるのだろう。

*1:柄にもなく赤旗を引いてみる。ちょっと探しただけでは、通知の原文が見つからない。どこかに全文が公開されていないのか。

*2:京大にいたころは、研究室の隣の建物が文学部図書室 (雑誌棟) という天国に近い環境だった。九大では片道1時間程度かかる別キャンパス。しかも、図書の取り寄せ貸出を依頼するには Excel シートに入力しないといけないという謎の因習が残っている。

*3:私の観測範囲では、他にも、学内ネットワークの管理業務がある。文学部にこういう特殊な業務はあるのだろうか。

*4:評価データとして数学を使っているのはわかりやすいからだろう。数学は課題ごとの独立性が強い。微分をやっても同時に積分ができるようにはならない。語学は課題の依存関係がもっとごちゃっとしていて難しいし、面白いのではないかと推測する。

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).

社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果として以下の 2 つを主張する。(1) 社会のエリート層において、武士 (侍) の子孫は高い相対出現率を持つ (つまり、人口の割に大きな数を占めている)、(2) しかも、世代間で高い rate で維持されている (つまり、流動性が低い)。手法はともかく、データの扱いに引っかかるところがあったので調べみた。

背景

第一著者の Gregory Clark が 2014 年に The Son Also Rises: Surnames and the History of Social Mobility というふざけた題名のモノグラフを出している (未読)。問題の論文は、この本の background working papers の一つと位置づけられている。査読を経ていない様子。この分野の慣行を知らないが、それでいいのか?


2014 年の出版直後にメディアに取り上げられていた。日本については Wall Street Journal のブログ記事が話題にし、その日本語訳*1 が日本でも若干の注目を浴びた様子。私もこの時期にこの研究の存在を認識したが、それ以上深追いはしなかった。2015 年 5 月にモノグラフの日本語訳が『格差の世界経済史』という題名で出版され (未読)、その書評を目にした。気まぐれで、今回は少し調べてみることにした。そうすると、問題の working paper が見つかった。本自体は未読だが、論文が self-contained なので問題なかろう。

この論文は何をしたか

論文は武士と華族の 2 種類を対象としているが、この雑記では華族の部分は飛ばす。華族は雲の上すぎるし数が少なすぎる。まず武士の名字の一覧を得る。次に、その中から希少な名字の集合を選ぶ。希少な名字であれば、(近似的ではあるが) 複数世代にまたがって容易に追跡調査できるという仮定に基づいている。*2 この一群が日本の人口に占める割合が計算できる。次に、社会のエリート層 (医学研究者、弁護士、大学教授等) の名字のデータベースを得る。各データベースにおいて、問題の希少な名字の一群が占める割合が計算できる。人口に占める割合と、エリート層における割合を比較する。その結果、後者が3倍弱から6倍強という数値が得られた。つまり、この一群は、エリート層において人口の割に大きな数を占めていることになる。

ここまでで得られたのは、現代のある時点での状態。次に、長期的な動態を調べる。論文が着目したのは Google Scholar で得られる著者ごとの論文件数。論文であれば、1900 年から 2012 年までと長期的な調査ができる。希少な名字の一群は良いとして、あらゆる日本の人名を Google Scholar に投げるわけにはいかない。そこで、一般的な名字群との比較を行っている。結果、両者の割合の比は 20 世紀初頭には 12 程度あったが、長期低落傾向にあり、20 世紀の終わりには (図 6 の目測では) 5 前後まで下がっている。21 世紀に入ってからまた上がって 8 前後になっているけど、これが新たな傾向を表しているのかは不明。

結論として、日本の社会的流動性はいままで思われてきたよりもずっと低いと主張している。

データの怪しさ

武士の名字の一覧として『寛政重修諸家譜』(1812) を用いている。これは大名や旗本の家譜を幕府が編纂したもの。『寛政重修諸家譜』は国会図書館電子的に公開されているが、索引がないと使い物にならない。論文は、高柳光寿、岡山泰四、斎木一馬による本文 22 巻 + 索引 4 巻 + 別巻 2 巻を参照している。論文は、if the descendants of the Samurai constitute 50f the modern Japanese population, then they could still constitute anywhere from 20 to 500f modern Japanese elites といった議論を展開しているが、その前提として、データが武士を代表していなければならない。ここで最初の疑問がでてくる。Q1: 『寛政重修諸家譜』が武士を代表しているという前提は正しいか? この文献は幕府と直接関係を持つ者だけを対象としており、大名の家臣は扱わない。つまり、今回の結果から、例えば「地方の名家」について妄想しても無意味ではないか。

名字の希少性の判定には PublicProfiler worldnames を用いている。脚注 5 によると電話帳に基づくという。このデータベースの信頼性はよくわからないが、先に進む。論文の希少な名字の基準は、frequency per million (FPM) of 10 or under である。*3日本の人口が約 1 億とすると、ざっと 1,000 人以下。1,000 人もいたら、武士の子孫以外も結構混じっていそう。この点も深追いはしない。とりあえず抑えておくべきは、希少性判定は漢字ではなくローマ字で行っていること。

表 A2 に (希少な) 武士の名字が列挙してある。抜粋とは書かれていないので、これで全部なのだろう。表には聞いたこともない名字が並んでいる。Doki 土岐、Domono 伴野、Efuji 江藤などは怪しい。Q2: 本当にこのローマ字表記で正しいか? 基本的にはアルファベット順に並べられている。しかし、Zakoji 座光寺のあとに Urushizaki 漆崎が来て、順番が崩れている。特別な理由はなさそうである。雑な処理をしたのではないかという疑いが湧いてくる。さらに謎なのは、Urushizaki のあとに一行あけて、A に戻っている。Aburanokoji 油小路をはじめ、公家っぽい名字が並んでいる。Ie 伊江、Nakijin 今帰仁は沖縄の尚家であって、明らかに武士ではない。Isahaya 諫早や Tanegashima 種子島は大名家の家老、つまり陪臣。どうやら明治以降の華族を武士に追加したみたい。論文にはそんな手順は書かれていない。疑惑が深まる。Q3: 本当に『寛政重修諸家譜』だけが出典なのか?

調査

Q1-3 に答えるために『寛政重修諸家譜』を自分で調べてみた。調べたのは論文と同じく、高柳他の刊本。索引 1 の「姓氏 (家名) 索引」で、名字を探し、該当する本文を確認する。

とりあえず表 A2 の先頭、Aichi から Enokishita までの 18 個をすべて調べた。『寛政重修諸家譜』には読みが振ってあった。*4 例えば、Amau 天羽は「あまう」、Efuji 江藤は「えふぢ」。いい加減に読みを推定したのではなく、原文に基づいている様子。問題の Doki 土岐は、第 5 巻と第 19 巻に掲載されていた。前者は有名な美濃源氏土岐氏で、読みは「とき」。後者はよく分からない医者で、読みは「どき」。Toki の方は FPM が 24.94 なので無視したのだろう。Domono 伴野も同様に、「どもの」と「ともの」の 2 系統あった。しかし間違いもあった。Chikuhisa 知久は「ちく」が正しい。論文は FPM 0.04 (ヒットなし) としているが、Chiku だと FPM が 38.01 なので希少ではない。

先頭 18 個以外は目についたところだけを調べる。Fukuzue 福富は「ふくづみ」なので誤り。Kahara 河原はいずれの系統も「かはら」なので正しい。Kizuregawa 喜連川は「きつれがは」なので誤り。

ということで Q2 は片付いた。A2: 読みは基本的には正しいが、ところどころ誤っている。誤りの結果への影響はおそらく大きくないけど、信頼性に関わる。

続いて Q3 にいく。表 A2 の後半の華族っぽい名字は『寛政重修諸家譜』に載っているのか。Aburanokoji 油小路から Bojo 坊城までの 8 個を調べてみた。結果、索引に載っていたのは Anbe 安部の 1 個だけ。あと、Tanegashima 種子島も載っていなかった。由緒正しい家系だけど、江戸時代には薩摩藩の家老をやっていたので無視されたらしい。A3: 『寛政重修諸家譜』にない名字も混ぜてしまっている。そういうのやめてほしい。

最後に Q1 にかかる。Aichi から Enokishita までの 18 個の本文を読むと、いずれも幕臣*5それも結構身分が低い。御徒から始まって多少は出世した、ぐらいのレベル。道理で聞いたことのない名字ばかりである。全体を見ると、Hitotsuyanagi 一柳が大名、喜連川 (きつれがわ) が大名扱い、Takatsukasa 鷹司 (松平) が大名だが、他は身分が低め。ピラミッド型の身分制度だから集めると下位層が大半を占めるのは自然な結果。だとすると、華族のように最上位層だけを抽出しているわけではないことになる。この点では武士を代表しているかもしれない。

しかし、調査対象の大半が江戸に住んでいる。これは強烈なバイアスになっている可能性がある。やはり、このデータは人口の 5% からのサンプルとしては不適切ではないか。社会階層とは別の解釈として、都市と地方の対立が考えられる。つまり、古くからの東京の住人が、全国平均と比較して、東京に集中しやすい職業につく傾向があるということを意味している可能性を排除できていない。ということで、A1: 『寛政重修諸家譜』は武士を代表していない可能性が高い。

結論

データ処理に粗雑なところがあって信頼性にやや疑問が残る。おそらく結果自体に大きな影響はないけど。より重大なのは、結果の解釈、あるいはそもそもの問題設定にデータが合致しているかが怪しいこと。

希少な武士の名字が都市に集中しているかは検証できると思う。名字の市町村レベルの件数を出すサイト (ただし、読みではなく漢字だけど) があるから。ネタは提供したので、誰かやってくれないかな。

*1:コメント欄があいかわらず残念なことになっている。

*2:「希少な名字ならば武士」というアホな仮定をしているわけではない。希少な名字が社会的に有利あるいは不利といった仮定をしているわけでもない。反対に、希少な名字の一群から得られた結果が母集団全体に当てはまると仮定している。

*3:私の名字の場合 FPM が 2.49 で、希少と判定される。

*4:これは国会図書館本でも確認できる。

*5:「とき」と読む希少ではない方の土岐氏は大名。一応。

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。

背景

2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、SF か何かから出てきた singularity 業界が騒ぎ出した (らしいことを私は認知した)。その後、2013 年あたりから Deep Learning というバズワードが流行りだして、ますます楽しそうにしている (らしい)。「らしい」というのは自分で深く追いかけていないから。人工知能*1の実際の研究と関わりのないところで展開されている。Michael JordanYann LeCun のような大御所もこの話題には冷淡。

singularity 業界は人工知能の現状を知らない。そもそも、人工知能は何ができて何ができないかという現状認識について、研究者と世の中の間で大きな断絶がある。大きなニュースが続いた結果、実態を伴わない期待が膨れ上がっている。日本でも、人工知能業界の有名研究者が一般紙に出て、期待を煽り立てている (ように見える)。日経新聞でも読んでそうな、決定権を持っている人たちを動かそうという意図を感じる。そうやって、研究コミュニティを護送船団的に守ろうとしているように見える。その一方で、同じ研究者が、別の機会には、人工知能にまつわる誤解をとこうと奮闘していたりする。自分で煽り立てながら火消しもする、因果な商売である。Michael Jordan や Yann LeCun もそうだが、長く研究を続けてきた人は冬の時代を経験している。過剰な期待が失望にかわり、再び予算的に干上がることを恐れている。私はもちろん護送船団を率いる立場にはない。でも、世間の誤解は私にとってもリスクではある。偉い人が誤解に基づいて予算を配分し、やりたくもないことをやらされ、その結果失望されるなんて悪夢である。

何が問題か

singularity 業界は、計算機の知能が人間を上回る可能性ばかりを考えている。特に、計算機が自身よりも知的な計算機を複製できるようになれば、知能が加速度的に増幅する、と思っている。おそらく、研究の中心が論理推論だった時代の印象を引きずっている。知能を合理性や科学的な正しさといったものと漠然と結びつけている。でも、人間の知能はそういうものではない。少なくとも、それだけではない。

例から入る。Deep Learning によって急激に性能が向上した分野といえば画像認識*2。画像認識は、例えば、猫が写っている画像を入力して、そこに写っているのが猫だと計算機に認識させるタスク。何を計算機に教え込めばそんなことが可能になるか想像もできないかもしれない。でも、最近では、データセットによっては人間に勝ったという報告すらある。技術の進展は恐ろしい。

しかし、落ち着いて考えてみてほしい。画像認識ができたら知的といえるだろうか。そんなことは猿にでもできる。いや、もっと原始的な動物にだってできる。

Deep Learning が成功したもう一つの分野は音声認識音声認識は音響モデルと言語モデルを組み合わせおり、特に Deep Learning が効いたのは前者、つまり、音声信号と記号列を対応づける部分。これぐらいの能力は、人間以外の動物にも備わっているだろう。

こうして人間以外の動物を考慮するとわかる。最近の人工知能が実現したものは、「知能」という言葉から一般に想像されるものからずれている。とはいえ、画像認識も音声認識も商業的な需要があふれている。計算機は賢くなったと宣伝しなければならない。お金を握っている連中に対して、「猿が実現できました」なんて口が裂けても言えない。まさに POISON。

Watson はどうか。あれは連想ゲームを奇形的に発達させたものだと思えばよい*3。例えば、This 'Father of Our Country' didn't really chop down a cherry tree. という設問を考える。どうやって答えの George Washington を導くか。This 'Father of Our Country' という句から、人についての質問だと推定できる。Father of Our Country、chop down a cherry tree といった句で文書を検索して、結果から人を抽出して、適当に順位づけするといった具合。

あれはあれでそれなりに商業的な需要があるのだろう。しかし、あんなもので言葉を理解したことにはならない。あれを見て偉い人が誤解すると困る。実際にはまだ実現できていないものができた扱いになると、それを本当に実現しようとする研究が潰されてしまう。現に、ビッグデータという別のバズワードと渾然一体となって、実用化一辺倒の体制に予算的に誘導されている。生きづらい。

記号幻想

上で、singularity 業界は人工知能研究が論理推論をやっていた時代の印象を引きずっていると書いた。ここで昔の研究を振り返ってみる。内容的に去年の記事と重複あり。

意味というものをどう扱えばよいか、誰も正解を知らなかった。これは今でもわからない。論理業界では、概念にとりあえず atomic な記号を与える。猫に Cat とか。そして記号同士の関係を記述する。Cat は Mammal と is-a 関係にあるとか。そうした関係に基づいて推論を行う。このやり方には 2 つ課題がある。一つは素朴な論理体系だと簡単に破綻する。どういう体系を設計するか。もう一つは、knowledge acquisition bottleneck と呼ばれる問題。この世界の知識をとても記述しきれない*4

後者の知識記述については、自然言語のテキストから獲得するという方向で研究が進んできた。そうした研究はここ 10 年ぐらい流行っていた。特にウェブテキストが大量に手に入るようになってから。私もかつて手を出した。しかし、そろそろ限界だと思う。話は簡単。仮に記号の数を N=10 万とする。単純な事態に対応するのが「A が B を P する」という 3 つ組だとすると、組み合わせは O(N^3)。それなりに面白い推論をやろうと思ったら、「A が B を P すると D が E を Q する」といった事態間関係の知識も必要。そうなると O(N^6)。数え上げおねえさんも涙目である。*5しかも、言語は冪乗則に従う。高頻度な語はわずかで、低頻度な語が大量にある。当然、低頻度な語の組み合わせも大量に出てくる。いくらテキストを集めても被覆できない。そうした未知の表現でも人間は問題なく理解できる。しかし、計算機は困る。従来研究がどうしてきたかというと、上位下位関係等を使って式の汎化を行ってきた。しかし、そもそも記号を atomic に扱うところに限界があるように感じている。

テキストからの知識獲得を試みている時点で、古き良き人工知能像とは決別している。合理性や科学的な正しさから程遠い場所に来ている。テキストに書かれているのは、正しさとして一般に想像されるものとは違う。いろんな人がよく言っている何かでしかない。既に述べたように、そもそも現状では知識の整理があまりうまくいっていないが、仮にうまくいったとする。それでも、三段論法を使おうと思っても、大前提が真か偽かも怪しいし、小前提も怪しいし、だから結論も怪しい。計算機の中でぐるぐる推論をまわすと、仮に出発点が真であっても、数 hop 先は信頼度が著しく低いものになってしまう。

結局、この世界を正確に写像したものを計算機が持つことなんてできないし、正しい規則に基づいてこの世界の未来を予測することもできない。信頼できない観測と、信頼できない知識を使って、信頼できない planning をするしかない。その点では人工知能は人間と変わらない。

2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。

テキストの限界

上で Deep Learning に触れた際に意図的に飛ばした話題に、意味の分散表現がある。King - Man + Woman ≒ Queen の例で有名になったアレである。こういう結果を見ると、意味というものに過剰に思い入れを投影しそうになる。しかし、落ち着いてモデルの式を見ると、やっていることは目的関数の最適化。目的関数を最大化 (最小化) するような何かを学習しているに過ぎない。例えば、評判分析で学習しているのは、意味の中でも極性 (positive か negative か) に関わる部分だけ。multi-task learning で、複数のタスクで共通の意味表現を用いる試みもあったが、あまりうまくいかないと聞く*6。学習しているものが、タスクごとに全然別々なのだろう。現状では、意味というものを包括的に捉えることはできていないように思う。

猿を作ろう

やはり自然言語処理は画像認識や音声認識とは性質が違う*7。画像認識や音声認識には多少なりとも生物的な基盤があるが、自然言語処理にはない。砂上の楼閣というか、砂の上にすら建っておらず、ふわふわと浮かんでいる感じ。もちろん人工知能を作るために人間を模さなければならないとは限らない。でも、テキストという人間の生成物を利用するのであれば、人間がやっていることからかけ離れたやり方で知能を実現できるとは思えない。

自然言語がいつ誕生したかには定説がない。仮に 20 万年前だとする。明らかなのは、進化の過程で、自然言語よりも知能が先行すること。言語が誕生した時点では、エピソード記憶や手続き記憶を当然備えていたはず。再帰的な操作もできるようになっていたのではないか。言語より前に、伝えたい意味を人間は持っていただろうし、相手が伝えたいことを推測する能力も持っていた。言語の意味解析をやろうとすると、言語から意味への一方向の写像を考えがちだけど、おそらくそれだけでは無理。音声認識における言語モデルのように、意味側で自然さを考慮する (相手の伝えたいことを推測する) モデルが必要。テキストの世界に閉じたまま意味を捉えるのは無理がある*8

結局何が言いたいかというと、人間を上回る知能を妄想する前に、まず猿、特に人間に近いゴリラやチンパンジーの知能を実現することを考えた方が良い。それを実現することが科学の大きな進歩だという認識が広がってほしい。そして、すぐに役に立たなさそうに見えても予算的に締め上げないでほしい。

仮に猿が実現できて、次に人間を実現しようとなったとき、最初にできるのは高度な知能と一般に想像されるものではないだろう。むしろ、次々と迷信を生み出すような何かのはず。人間を上回る知能なんて、そういうものが実現できてから考えれば良い。そういう基盤ができれば、科学的手続きをどうエミュレートするかといった問題に取り組めるようになって、科学哲学系の議論に実体を与えられるようになるかもしれない。

*1:ふと思いついて調べてみたところ、「人工知能」という言葉を自分で書いた日本語論文で一度も使ったことがない。

*2:画像認識は私の専門ではない。ディープ・ラーニングと 画像処理・画像解析セミナーというスライドが私にような門外漢にもわかりやすい。

*3:もちろん私は Watson の詳細を知る立場にない。地道な言語処理研究の積み重ねであることは間違いない。しかし、それはここでは重要ではない。

*4:知識の記述を何十年も延々と続けているプロジェクトも存在する。

*5:2015 年 5 月 7 日追記: O(N^6) 程度では数え上げお姉さんは涙目にならないとのツッコミを頂戴した。元のビデオを確認した。ご指摘の通りだった。

*6:非公式に聞いた。残念ながら negative result は論文にならないことが多いので。

*7:精度面でも、両者は違う。自然言語処理では、Deep Learning 系の手法は既存手法の性能を大幅に上回るということが基本的にない。良くても同等か、少し上回る程度。

*8:もしかしたら言語と画像との対応を学習するのは近似としては有望かもしれない。

Modelling the Spatial Dynamics of Culture Spreading in the Presence of Cultural Strongholds

Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.

物理屋さんによる言語の論文。先月、物理屋さんの研究会で発表したときに教えてもらった。last author の所属大学が私の現在の所属と同じ。意外と近くに似たことをやっている人がいるものである。言語の研究者は背景がばらけすぎ。サーベイが足りてなくても、石を投げずにあたたかく見守ってほしい。あと、この論文は英語が独特。

方言周圏論をシミュレーションで再現している。online demo がある。しかし、Java がブラウザから追放されるこのご時世に applet はつらい。

蝸牛考とアホ・バカ分布図に言及した上で、京都を中心とした語の分布を作ろうとする。なぜか Gray et al. の Science 論文を引用しているが、系統樹を作るという発想は最初から最後まで出てこない。普通はそうだろう。

シミュレーションの中身は簡単。要旨に Eden growth process という聞きなれない用語が出てきて身構えたけど。

日本列島に格子をあてはめ、各点を方言のノードとする。新語は京都でしか発生しない。その発生頻度は f_{\textrm word} で制御する。語は隣接ノードに対して伝播していく。どのノードを更新するかの決定はランダム。選んだノードに対する更新は決定的。新しい語が古い語をかならず置き換える。シミュレーションの結果、東西の辺境に古語が残存するという期待通りの分布 (図 2 左) が得られている。

シミュレーションの悩みとして、パラメータ設定の根拠がとぼしいというものがある。こうやって日本地図で分布を可視化することで、パラメータを調整するのはありかもしれない。この論文の場合、モデルを少し変更し、新しい語がかならずしも古い語を置き換えない場合も試している。その結果 (図 3)、分布がまばらになっている。この結果はおそらくあまり自然ではない。この結果は、語借用の要因として「威信」があることの傍証にならないか。

この研究への不満は、京都を中心とした伝播しか考えないこと。方言周圏論の背景には、新村出あたりが言い出した、方言の東西対立があったはず。研究史をちゃんと確認してないけど。柳田國男が大々的に着目したのは、東側の特徴が九州等の西側の辺境でも見つかる場合があること。改新の年代差が地方差に反映されるとは一般に言えても、それが具体的にどういう分布になるかは一概には言えない。方言の東西対立という枠組みがつぶれたわけでもない。例えば、「からい」と「しょっぱい」の東西対立の場合、東日本の「しょっぱい」の方が新しい。

やはり、モデルに最初から京都を特別扱いさせるのはうれしくない。こうした前提抜きでシミュレーションを行い、結果として周辺論的分布がたまに得られると良い。そのためには、均質なノードからなるグリッドでは都合が悪い。ノード自体に大小をつけるのか、ノードの間隔を不均一にするか、とにかく文化的中心が中心となるような仕組みが必要。それを言い出すと、隣接ノードとしか通信しないのも怪しい。15km や 30km といったノード間隔は、人間の行動範囲と比較して微妙なところ。おそらく前近代であっても、道沿いのリレーで伝播したとは限らない。多少離れていたとしても、ハブとなる町と直接通信することで伝播した場合も多かったのではないか。そういう実験をやってみたので、前近代の人口データを誰か作ってほしい。