2017-05-05

「語」とはなにか・再考

NLP 本

宮岡伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.

書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそもの Universal Dependencies は、通言語的に一貫した (universal) 係り受け (dependency) のデータを作るプロジェクト。日本語 UD はその日本語版。UD では、できるかぎり特定の言語に依存しない共通の方針やタグセットを用意しておき、そこに収まらないものだけは各言語で対処する。その方針自体は良い。*1 問題は日本語 UD が根本的なところで共通方針に従っていないこと。その結果、普遍的でも何でもない代物になってしまっている。

具体的な問題は、語 (word) の認定基準がおかしいこと。ここでいう語は係り受けの単位。日本語 UD は BCCWJ (現代日本語書き言葉均衡コーパス) 由来の「短単位」(short unit word, SUW) を語とみなしている。しかし、短単位は通言語的にみて語ではないものを含んでいる。UD の方針にあわせるには、まずいわゆる付属語 (助詞、助動詞) を接語 (clitic) と接辞 (affix) にわけなければならない。接語は単独で語をなすが、接辞はそうではない。接辞は自立語にくっつける必要がある。その塊こそが語であり、係り受けの単位である。

このように日本語 UD の認定基準を修正したとすると、次に問題となるのは、具体的にどのように接語と接辞を区分するか。作業量的にも難易度的にも言語処理研究者が片手間に行える範囲をこえている。そういうわけで次の一歩が踏み出せずに逡巡していた。そんなときに宮岡 (2015) が答えを提供していることに気づいてしまった、というお話。

UD の重要性

日本語 UD の問題は放置しておくとまずそうだと思っている。ただし、短期的にはさほど重要ではない。実際、現在のところ、私は UD に関わっていない。UD 日本語をやっているのは知り合いだけど。とりあえず日本語処理の研究をする分には、いまの研究室がこれまで整備してきた資源で足りている。

短期的には、UD が整備されてできるようになるのは、教師なし文法獲得と類型論的興味からの多言語処理。例えば、ある言語と別の言語の構文構造がどのくらい似ているかという疑問に答えたい。普通は類型論の研究者が人手で作った特徴量を用いるところだが、データ駆動で定量化したい。実は2011年くらいから研究があり、各言語の構文解析のパラメータを同一空間上で表現して比較する。通常の構文解析のパラメータは言語ごとにばらばらで比較できない。この研究では、言語間で共通の品詞体系を用意することで、言語間の比較を実現していた。しかし、結果が直感に反している。日本語がヨーロッパ言語と離れているのはわかるが、トルコ語とも離れすぎ。しかし、これが本当に言語的な違いに由来するのか、もしくはアノテーション基準の違いに由来するのかわからなかった。

ちなみに世の中一般的な UD への需要は別にある。言語ごとに解析器を一から作っていては効率が悪い。モデルは共通のものを1個だけ作って、あとは各言語のデータを流し込んで機械学習すれば構文解析器が完成するという状態になってほしい。そのための仕様の共通化。*2 とにかく動けば良いという立場の人は通言語的一貫性をあまり気にしないかもしれない。私の興味からすると、そこをちゃんと詰めることこそが重要。

長期的には、日本語処理の将来性の問題にかかわる。もしこの先 UD が世界的に標準的地位を確立したら (その可能性はそれなりにある)、それ以外の資源の地位は危うい。シェア争いには勝たねばならない。そもそも現在の日本語処理の資源は日本の外から使いにくい状態にある。データの入手が困難だし、日本語独自のオレオレ仕様だし、仕様書も日本語で書いてあって読める人が限られる。*3 日本語処理を存続させるためには、国外からも研究できる状態を整備する必要がある。私自身、いつまで日本で研究を続けられるかわからないし。

語の認定

本題。UD の方針は Tokenization and Word Segmentation に書かれている。それによると、係り受けの単位は syntactic words (not phonological or orthographic words)。orthographic word は分かち書きの話なので日本語とは無関係。phonological word はアクセントやイントネーション上のまとまり。語よりも大きく、文節と一致することもあるが、そうでない場合もある。現象として複雑で、私もちゃんと把握していない。宮岡 (2015) も詳細には立ち入らない。

syntactic words を単位とするという UD の方針が堅持されるとひとまず仮定する。トルコ語 UD で inflectional group という独自の単位が規模を縮小しつつも維持されていることを考えると、修正が入る可能性はある。*4

この方針では接語は語の仲間であり、係り受けの単位となる。接辞は語をなさない。

短単位は語ではない

ところが、日本語 UD は短単位 (SUW) を単位として採用してしまっている。短単位の認定基準の複雑さは尋常ではないが、大雑把に言えば形態素。つまり接辞を含んでいる。

どうしてこんなことになってしまったのか。日本語 UD 関係者は UD 以前から「単語」単位の係り受けに取り組んできたので、その延長なのだろう。ここでいう「単語」は超短単位といって、短単位をもとにし、さらに用言の語尾を切り出したもの。もちろん語ではない。

上記論文の著者にかぎらず、日本語 UD 関係者の間では、文節は日本語独自の単位であり、世界では通用しないという思い込みが広く共有されているように見える。しかし、トルコ語やフィン語の orthographic word は文節によく似た単位であり、文節はさほど奇異なものではない。むしろ、接辞に係り受けをつける方針の方が異常で、他の言語の例を知らない。形態論の範囲の現象を統語的に扱うのは、単に気持ち悪いだけでなく、UD が想定していないので、品詞・素性の通言語的一貫性も損なわれる。日本語処理を英語や中国語と同じようにしたかったのだろうが、英語も中国語も類型論的に非典型的な言語であり、そんなものを見ていても通言語的な標準は確立できない。

ある日本語 UD 関係者は、統計的機械翻訳に取り組んでいて、文節の不便さを痛感したとのこと。日英や日中のアラインメントを高精度に行うには、両言語を意味的にほぼ同じ粒度で区切り、その単位で構文木を作りたい。それは理解できる。しかし、日英や日中がよくても、日本語・トルコ語や、日本語・フィン語の対応づけに困ることからわかるように、本質的な解決にはなっていない。トルコ語やフィン語を含む UD の共通方針そのものの変更を試みるか、あるいは UD から離れて応用依存の構文木の作成に舵を切ってもらうしかない。

また、英語や中国語の場合のように、係り受け解析は形態素解析 (「単語」分割、品詞タグ付け) の結果を直接使うべきもので、間にチャンキングを挟むべきではないという思い込みも見られる。しかし、UD の方針に従うなら、形態素解析のあとに、接辞を自立語にくっつける (チャンキング) 必要が生じる。現存する言語としては世界で唯一の異常な書記体系を日本語が採用している以上、どこかで日本語独自の処理を行ってそのゆがみを吸収するのはやむを得ない。他の分かち書きしない言語は孤立語的であり、形態論の役割はないに等しい。*5 他の言語では、文節に近い orthographic word が与えられており、その内部構造を考える必要はあっても、語への分割に悩まされることは基本的にない。日本語の場合は正書法的に語が与えられていないし、それをいきなり認定するのは難しい。辞書と文法を用いて解析する以上、生産性の高い現象があれば、まずは要素に分解するのが得策。それが形態素解析。その後に形態素をチャンキングして語を特定することになる。

語認定問題の先行研究

実のところ、宮岡 (2015) は語認定問題に関してまったく新しい提案をしているわけではない。先行研究が存在する。

まず、日本語 UD の問題は Thoughts on the Universal Dependencies proposal for Japanese (2016) で既に指摘されている。問題はこの記事で言い尽くされている。宮岡 (2015) を読むまで、私が付け加えることは特にないと思っていた。おまけに提案されている解決策も大筋で宮岡 (2015) と同じ。著者の Greg Pringle のことは、Bathrobe というハンドルで以前から知っていた。しかし、こんなにガチの人だとは知らなかった。参考文献に、著者自身の 1977 年の学位論文が挙がっているが、その表題が The Word as a Linguistic Unit in Japanese: Towards a descriptively adequate characterisation of Japanese from a morphological point of view。道理で異様に詳しいわけである。

Pringle (2016) と宮岡 (2015) が指摘するように、明治以降の国語学では、接語と接辞という観点からの区別を行わない傾向にあった。例外は毎度おなじみの服部四郎で、『附属語と附属形式』(1950) という論文を出している。採用している用語は異なるが、附属語は接語で、附属形式は接辞。服部は「附属語と附属形式を見分ける原則. I, II, III」として 3 つの原則をたてている。原則といっても、傾向を見ていたりして、明確な基準にはなっていない。より通言語的で一般的な語認定方針については Haslpelmath (2011) が検討しているが、やはり客観的な基準を打ち立てるのは難しそうである。宮岡 (2015) の方針は服部 (1950) とは異なる点があるものの、結論はほぼ同じに見える。

Pringle (2016) の提案も同じ。Pringle は文節をそのまま維持したがっているようなので、以下は妥協案という位置づけが正しいかもしれない。ちょっと埋もれている感があるので引用してみる。

treating:
1) particles following nouns as clitics
2) 'agglutinative morphemes' following verbs as suffixes or word endings
3) the copula as a separate word.
This results in sentence-ending question particles like か ka, conjunction particles like と to, and copula forms like です desu being treated as clitics or separate words, thus satisfying most of the demands of UD proponents. On the other hand, most 'agglutinative morphemes' attaching to verbs would be treated as affixes, avoiding the less fortunate consequences of discarding the bunsetsu.
http://www.cjvlang.com/Spicks/udjapanese.html

宮岡 (2015) の貢献

日本語 UD の問題は、Pringle (2016) のおかげで、UD 主要開発者の間で認知されている。Nivre の意見は大筋で私と一致するようである。

金山さんは、「食べた」は「食べ」「た」に分割すべきで、その根拠は丁寧の「まし」などを間に挟めることと主張しているが、これには賛同できない。宮岡 (2015) の説くとおり、「た」は屈折接尾辞で、他の屈折接尾辞とともに小さな閉じた集合を構成し、paradigm をなしていると見るべきだろう。「ます」は VV 型の (動詞から動詞を作る) 派生接尾辞。「食べました」の場合は、派生をおえた語基 (base) 「食べます」に屈折接尾辞「た」がついたと解釈できる。

同様に、「かわいさ」の「さ」は VN 型派生接尾辞、「子どもっぽい」の「っぽい」は NV 型の派生接尾辞であり、「かわいさ」、「子供っぽい」はいずれも 1 語。「さ」や「っぽい」は生産的であり、派生後の語を辞書にあらかじめ書いておくわけにはいかない。まずは形態素解析で「かわい-さ」と分割するのが常道だが、係り受け解析を行う前にチャンキングしておく必要がある。

方針はこれで良いとしても、宮尾さんも書いているように、日本の言語学 (国語学) は伝統的に接語と接辞という観点からの区分への関心が薄く、参照できる文献が見当たらないというのが問題だった。服部 (1950) はいくつかの例を示すのみだった。

そこで登場するのが宮岡 (2015)。表 2: 接辞と接語の対照表 (187-189頁) は網羅的に見える。コーパスと対照していないので、どの程度漏れがあるのかわからないけど。個別の事例についても 4、5 章で議論されている。これを土台にすれば、日本語 UD の問題の解決に踏み出せそう。

落穂拾い

『「語」とはなにか・再考』ということで、無印版がある。『「語」とはなにか: エスキモー語から日本語をみる』(2002)。無印版を読んだのはかなり昔。ぼんやりとした記憶をたどると、特に焦点を定めないまま日本語とユピック語を対照していただけだったと思う。宮岡 (2015) が本腰を入れて日本語文法に取り組んでいたのは意外だった。

複統合的なユピック語を長年研究していたら、形態論に関心が向くのは自然な流れ。宮岡 (2015) は語の認定から意味を排除することに力を入れている。統語論も形態論との絡みで必要な場合に限って取り上げている。照応には触れない。当然ながら依存文法への言及もない。

文節との違いで大きいのは、格助詞を接語とすること。根拠は、「男だけが」のように接語「だけ」を挿入できることなど。服部 (1950) も同じ判定だが、服部はさらっと述べているだけなので、注意せず読んでいたら見逃しかねない。「印欧語名詞のような屈折変化あるいは名調の格変化（対格，奪格/生格）とも，日本語の屈折とも，まったく別ものであるのは明らかである」(p.286) ということで、印欧語との比較はするが、アルタイ諸語に言及しない。服部 (1950) は、タタール語の /ɣa～qa/《に、へ》、 /nə/《を》、/ta/《の所に、において》(p.481) を附属形式 (接辞) 扱いしている。この点で、現代日本語は非アルタイ的と言えるかもしれない。モンゴル語やトルコ語の接尾辞は語基の母音調和の影響が及ぶし、いかにも従属的な印象を受ける。満洲語の場合はモンゴル語よりも日本語に近い感じがするが、服部原則を適用すると接辞と判定できそう。

屈折変化する前接語 (enclitic) が通言語的にめずらしく、日本語の特徴のひとつといえるという指摘も、いままで意識したことがなかった。

接語と接辞を区分して、接辞を係り受けの単位から消していくとする。そうすると品詞と素性の大改造が必要となる。UD が印欧語族的な屈折の扱いに引きずられているのだと思うが、屈折接辞には品詞が与えられず、素性で表現されている。日本語処理に慣れていると違和感がある。ともかく、いまの日本語 UD が事実上無視している universal features を使いまくらないといけない。

宮岡 (2015) の提案のうち、UD と衝突しそうなのが、4.6.2 複合法。「語幹間 (+) のところに“助調”その他いかなる語も挿入できない固い結合の複合（1語) にかぎって用いている。」(p.245) とのことだが、判断が揺れそうだし、なんだかんだ言って orthographic words の影響が強い他の言語の UD プロジェクトとも対立しそう。

Pringle (2016) は、意味論をもとに文節を否定する Butler et al. の議論をバッサバッサとなぎ倒している。これを見て思ったのだが、トルコ語の inflectional group (IG) は本当に必要だろうか? IG の必要性を示すとされる例文:

mavi araba-da-ki-ler uyu-yor-lar
青い車-に-いるの-たち寝て-いる-[人称接辞]

この例文では、青い (mavi) のは車 (araba) であって車にいる人たち (-ki-ler) ではない。それを依存構造で明示するために araba-da と -ki-ler に分割し、mavi を araba-da に係らせる。しかし、そもそも -ki は語の外から修飾できるのだろうか? 係ってくる語が必ず araba を修飾するのなら、araba-da-ki-ler をそのまま持っておいても問題なさそう。なるべく意味が透過的な表現を作りたいという気持ちはわからないでもない。形態統語法自体が自立性を持っていて、思考を言語で表現する際には、その様式に従って型どっていくと考えると、言語の形態統語的表現と意味表現にある程度ずれが生じるのはやむを得ないように思う。宮岡 (2015) の執拗な「カタチ」の議論もそういう主張だと理解している。

2017年6月27日追記: スライドにした。Nive がアイヌ語に UD を適用している論文も教えてもらった。アイヌ語は人称を表す形態素が、特に動詞に義務的につくが、これらを一律に接語として扱って係り受けをつけている。

2017年9月13日追記: 読み物として、Haspelmath による研究史の概観 (Non-)universality of word-classes and words: The mid-20th century shift が面白い。学校文法、構造主義、生成文法、類型論をみたとき、構造主義は学校文法の素朴な文法概念から離れて言語ごとの個別主義を打ち出したけど、生成文法は構造主義を忘れて学校文法へ回帰したという話。普遍的とされるものをどうやって普遍的に認定するかを詰めておらず、昔の素朴な概念を使いまわしていると主張する。この説明からすると、我々が UD で困っているのは、生成文法の人が放置してきた問題を拾っているからといえる。Halpelmath は類型論の人なので、生成文法の人には反論がありそうだけど。

Haspelmath (2015). Defining vs. diagnosing linguistic categories: a case study of clitic phenomena. が面白そう。

*1:Unicode と似ている。Unicode のある世界はなかった世界よりも確かに便利になった。とはいえ、Unicode を使うと、各文字が抱える難しい問題が消えてなくなるわけではなく、どこかの段階で処理しないといけないことには変わらない。それどころか、各言語・文字特有の事情を一箇所に集めることで難易度があがる。

*2:教師なし文法獲得に関しても、提案モデルをなるべく多くの言語に適用して性能を測りたいという需要はある。

*3:日本語処理がガラパゴス状態なのは、うちの研究室の責任が大きいという指摘をとある日本語 UD 関係者から受けたことがある。私も問題意識は共有している。

*4:トルコ語の係り受けの単位と inflectional group については 2011 年にこの雑記で取り上げたことがある。

*5:チベット語は膠着的だが、現在のところ UD に入っていない。

2017-04-24

日本語「形成」論

言語本

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)

先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。

日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著者が80歳になる年にモノグラフを上梓した。研究の集大成ではないかと期待されるところ。知りたいのは、魔法の箱たる「混合」の中味。オーストロネシア語族話者がいつ、どの経路で日本に流入し、どのような形態の接触により「混合」が起きたと考えているのか。

実際に読んでみると異常に見通しが悪い。著者の仮説がまとまった形で示されない。結論にあたる章がなく、唐突に本論が終わる。では最初に仮説の全体像が提示されているかというと、第I部の表題は「従来の日本語系統論」。本書に散りばめられた断片的な記述を読者が拾い集めて再構成しなければならない。まとめて示すべき仮説の全体像がそもそも存在しないのかもしれない。だとすると、(1) 証拠を収集、(2) 仮説を提起、(3) 批判に耐え、対立仮説をつぶして確立される、という一連の流れのうち、本書は第1段階に留まっていることになる。

なぜこんなことになっているのか。推測だが、仮説が著者の人格と分かちがたく結びついていて、攻撃されうる要素をなるべく表に出さないように細工した結果ではないか。例えば、まえがきを見ると、いきなり DNA と言語系統を結びつける研究の批判からはじまる。*1 もちろんこの話には前提がある。DNA を見る限り、オーストロネシア語族話者が日本語話者の遺伝子プールに貢献したことを積極的に支持する証拠がない。しかし崎山はその件には触れない。読者としては、別に誰がとなえていても良いので、各種の証拠と整合する仮説が知りたいのだけど。

DNA に触れたので、著者が言及しない文献を挙げてみる。松本克己も単系統の Y-DNA と mtDNA だけを見ていたが、最近の流行りは全ゲノム SNP 解析。データサイズが大きいし、単系統ではなく組み換えがある。現代の沖縄県民 (沖縄、宮古、八重山の3地域) のサンプルの分析を見ると、台湾原住民との関係がまったく認められない。崎山は、オーストロネシア語族話者のなかでも、台湾の住人ではなく、台湾を出た系統が日本に入った可能性を考えている (p.24) が、それでも、まあ厳しいだろう。

とにかく、人類史を解明するための武器としては、DNA は量、質ともに圧倒的。現代人のサンプルだけでもわかることが多いのに、これも昨今流行りの古代 DNA を使えば、過去の状態が直接観測できてしまう。*2 骨形態などはどこかに吹き飛んでしまった。言語史の研究も、この先 DNA の分析に従属していくことになるはず。

全ゲノム SNP を分析すると、人間集団の混合とそのおおよその時期が推定できる。子孫がいずれの言語を受け継いだかはわからない。しかし、少なくとも、人間集団 (特に文字を持たない集団) が、遺伝的痕跡を残さず言語に影響を及ぼすことは考えにくい。インドの Parsi (ゾロアスター教徒) のように遺伝的に孤立していると想定された集団ですら、母系ではインド原住民との混合が見られる。大雑把に言って、全ゲノム SNP で、少なくとも 10% 程度の貢献が認められないようでは、大規模な言語接触の仮説は維持できない。

次は「混合」。第3章が「世界における混合語」という魅力的な表題だが、たった7ページで終わってしまった。原論文 (未見) は21ページあるのに。何が起きたのだろうか。そもそも混合説が支持を得られないのは、「混合」が魔法の箱にとどまっているから。現象を整理して、そこに成り立つ規則性を抽出し、それが日本語の場合にも当てはまることを示す必要がある。*3

一番紙面を割いているのは音変化。オーストロネシア諸語の coda を一律に落として開音節化するのは良いとして、日本語のアクセントに関する議論はよくわからない。語頭音節起源 (1群)、語末音節起源 (2群)、音節全体起源 (3群) に分ける (pp.70-71) が、分岐条件がわからない。関西で1音節名詞が2拍で実現される現象について延々と議論している。これがオーストロネシア語族との関係で何を意味するのかよくわからない。対応については、1群は類聚名義抄体系で低平調 (L(H))*4、2群は名義抄体系で高平調 (H(H)) に対応すると言いたいらしい。仮にこれを受け入れたとしても、この現象を tonogenesis と解釈するのは受け入れがたい。1音節名詞は2種類だけではない。類聚名義抄体系においては、解釈次第だが、1音節名詞は少なくとも3類からなる。残りの H(L) が説明されないまま。さらに Shimabukuro (2007) によれば、本土祖語と日本祖語 (Proto-Japonic) の1音節名詞は4種類からなる。

あとは気づいた細かい話が2つ。1つは隼人。「最も遅く日本列島に到達したオーストロネシア語族は、古墳時代以降の熊襲・隼人であった」(p.232) と主張する。熊襲はそもそも実在が疑われる。隼人も、永山 (2009)によると、「古墳時代の南九州は、中期までは副葬品などの面で全国的傾向と大きく外れることはないが、後期に入ると現在の鹿児島県本土域は地域的独自性が増していく」(p.237)。外来集団の流入を考えずとも、比較的新しい時期の孤立によって説明できそう。「隼人は、七世紀後期、律令体制建設に邁進する政府によって設定された「擬似民族集団」」(pp.237-238) と見るのが妥当。

隼人と同じページの記述。「琉球の古称ウルま「宇流麻」も、ウル島が語源である。異説ではウルを鬱陵島にこじつけるが、地名の語源として地域的一貫性を欠く」(p.232)。私の知る限り、ウルマは知識人がもっぱら和歌で用いた雅称であって古称ではない。もとは藤原公任の和歌に由来し、そこでは鬱陵島を指していた。

*1:明示されていないが、批判の対象は明らかに松本克己。

*2:日本でも 2016 年になって三貫地縄文人の全ゲノム SNP 分析が出た。

*3:去年、類型論のデータを使ってその真似事のようなことをした。

*4:例外的な上昇調「歯」を除く

2016-12-10

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

言語本

Christopher Moseley ed. 2010. Atlas of the World’s Languages in Danger, 3rd edition. UNESCO Publishing. (online version).

UNESCO から出ている、世界の危機言語を地図に示した本。以下、危機言語本とよぶ。UNESCO を権威としてありがたがる人をいまでも時々見かける。彼らは現物を確認したことがあるのだろうか。実は、この本の日本に関する部分は、目を覆うばかりの悲惨な品質。本記事ではまずはこの本がいかにひどいか示す。

危機言語の保存というのは政治運動。なぜそんなものを取り上げるかというと、運動家*1が権威づけに利用しようと、言語研究 (特に系統や分類に関するもの) の成果に対して誤解、曲解、恣意的な選択を行っているから。アホなことばかり言っていると槍が飛んでくるくらいが健全な状態だと思うが、当の研究者の対応は微温的。私の研究的な立ち位置*2は運動家と変わらないくらい周辺的だが、気づいてしまったからには書いてみることにする。

この話題を思い出したのは「種問題」ははてしなく続くというブログ記事を今年の9月に見かけたから。*3「言語多様性」という怪しげな政治的概念は「生物多様性」から借りてきたものだと思うが、生物側でも政治への対処が大変そうである。ただ、言語側には生物側とはおそらく事情が違う部分もある。昨今の言語研究の流行はこの手の政治運動にとって都合の悪い方向を向いている。この点にも触れる。

危機言語本の粗雑さ

危機言語本は2009年2月にオンライン版が発表されたのが最初で、本の出版は翌年にずれこんだようである。3rd edition となっているように、UNESCO からこの種の本が出るのは3度目。第3版といっても一から書き直された別物。第1版、第2版の編者はオーストラリアの Stephen Wurm だったが、Wurm は第2版が出版された年に亡くなっていて、第3版は同じくオーストラリアの Christopher Moseley が引き継いでいる。私が確認したのは第2版*4と第3版で、第1版は未見。

危機言語本の日本における受容は、日本には8つの危機言語があるという主張に焦点があてられている。すなわち、Ainu (Hokkaido), Hachijō, Amami, Kunigami, Okinawan, Miyako, Yaeyama, Yonaguni。今回はアイヌと八丈島は置いておく。問題は残り、いわゆる琉球諸語。一番の問題は言語認定の恣意性だが、その前に、危機言語本がこれらの「言語」をいかに粗雑に扱っているか見ておく。

atlas というのは地図を集めたもので、説明文をともなうことが多い。危機言語本の紙版も地図の他に本文がついていて、むしろこちらの方に紙面を割いている。本文は全体的な説明のあとに、地域別の説明 (Europe and the Caucasus, Greater Pacific area, North-east Asia など) が続いている。

では、問題の「言語」、例えば Amami はどのように説明されているのだろうか? 驚くなかれ、実はまったく出てこないのである。地図以外は、末尾の索引に載っているだけ。日本が載っていてもおかしくない章は North-east Asia と Greater Pacific area だが、いずれにも登場しない。

North-east Asia の章は Juha Janhunen が担当。Juha Janhunen はウラル語族とアルタイ諸語を手広くやっている言語学者。この章では、Siberia の節で系統不明の弱小言語群を説明しているが、そこでついでにアイヌ語に言及している。それより南の話は出てこない。

Greater Pacific area の章は Darrell T. Tryon が担当。冒頭で以下のように宣言する。

The Greater Pacific area comprises Japan, Taiwan (China), the Philippines, insular Malaysia, Indonesia, Papua New Guinea, the Solomon Islands, Vanuatu, Fiji, Micronesia, Polynesia, Australia and New Zealand, as well as Hawaii.

しかし、日本については以後一切言及がない。なお、Darrell T. Tryon の専門はオーストロネシア語族。

ちなみに第2版では Greater Pacific Area の章に Japan の節があって、The Japanese langauge of Japan と Ainu を簡単に紹介していた。第3版になってむしろ後退している。

ここまでくればわかったと思うが、危機言語業界 (?) には南北の縄張りがあって、辺境にあたる日本はぞんざいな扱いを受けている。

扱いの雑さを示す証拠はまだまだある。オンライン版は Google Maps を使っているから気づかないが、紙の地図は複数枚にわかれている。日本はちょうど南北の境界になっていて、八重山・与那国だけ別の地図にわけるという嫌がらせを受けている。大判の世界地図もあるが、言語が密集している地域は拡大図を載せている。そう、お察しの通り、八重山・与那国は台湾の拡大図に押し込まれている。

いったい誰の責任だろうか? 紙版ではそれがわからない。Contributers という章に貢献者一覧が載っているが、分担を書いていない。

オンライン版は言語ごとに貢献者と出典を載せている。Amami から Yonaguni までの貢献者はすべて Tapani Salminen。「お前誰やねん」とつっこまざるをえない。このあたりの言語を扱った論文でこの人が引用されているのを見たことがない。それもそのはず、貢献者欄で a specialist of Finno-Ugrian studies と紹介されており、本文の Europe and the Caucasus の章を担当している。要するに非専門家。危機言語本というのは世界中からマイナーなところだけ集めてくる事業だから、難しいのだとは思うが、もう少し何とかならなかったのか。

オンライン版はいずれの「言語」についても出典として以下の3つを挙げる。

Yukio Uemura: The Ryukyuan language. Endangered Languages of the Pacific Rim A4-018; Osaka 2003.
Patrick Heinrich: Language loss and revitalization in the Ryukyu Islands http://japanfocus.org/products/topdf/1596
Patrick Heinrich: What leaves a mark should no longer stain: Progressive erasure and reversing language shift activities in the Ryukyu Islands http://www.sicri.org/ISIC1/j.%20ISIC1P%20Heinrich.pdf

言語学者の論考は一番上の上村幸雄のだけ。残り2つは、こんなものを引用して恥ずかしくないのかと思う悲惨な代物だが、それについてはまた機会があれば取り上げる。ここで問題にすべきは、出典になっていないこと。すなわち、危機言語本の以下の主張は、上記の文献に対応物を見いだせない。

奄美群島北部 (奄美大島、徳之島、喜界島) を範囲として Amami を認定すること
奄美群島南部 (沖永良部島、与論島) と沖縄本島北部 (国頭) を範囲として Kunigami を認定すること
沖縄本島中南部を範囲として Okinawan を認定すること

Uemura (2003) において、Amami (the dialects of the Amami region) は奄美群島全体を範囲とする。同様に、Okinawa(n) は沖縄本島 (及び附属島嶼) を指す。国頭地方の諸方言は North Okinawa dialects とよんでいる。当然ながら、奄美群島南部と沖縄本島北部の総称として Kunigami を使うことはない。結局、危機言語本におけるこれらの「言語」の出典は不明のまま。

そもそも言語をどうよぶかなんて、大言語を扱っている限り当たり前すぎるが、マイナー言語を扱っているとそうもいかない。Glottolog という大規模な言語目録を作成している Martin Haspelmath が、最近命名方針を整理している (Language Documentation & Conservation)。11ある方針の5番目がこの問題に関連する。

New language names are not introduced unless none of the existing names is acceptable for some reason.

話者が嫌っているとか、そういう特別な理由がないかぎり、先行研究が採用した名前を尊重すべきであり、勝手な命名をして混乱をもたらすなということ。まあ当たり前の話。そして、危機言語本は、そんな当たり前のこともできていない。

この3つの命名はいずれもひどい。地理的に国頭に含まれない鹿児島県の沖永良部島、与論島をひっくるめて Kunigami とよぶのは、大国頭主義 (?) 的で、無神経にもほどがある。こんなことをやりながら言語多様性をうたうなど笑止千万。

問題はこれにとどまらない。認定された「言語」の範囲にも問題がある。この問題を実感するには、遠回りになるようだが、研究史を振り返るとよい。

研究史 (1): ISO 639-3 言語コードとその出典

危機言語本は無視しているが、これらの言語群に対する研究には膨大な蓄積がある。挙げていくときりがないし、私がまだ把握していないものも多い。ここでは国際的に知られているものに絞って紹介する。

ISO 639-3 言語コードというものがある。国際標準っぽいし、実際そうなのだが、登録作業は SIL International という民間団体が行っている。そして、登録内容は SIL が発行している Ethnologue という言語目録に載っている。*5

危機言語本認定の「言語」には、対応する ISO 639-3 言語コードが記載されている。例えば、Amami に対して ryn, ams, kzg。これに限らず、Ethnologue は、いわゆる琉球諸語に対して、全部で11の言語コードを付与している。これの出典は明らかに以下の文献。

S.A. Wurm and Shirô Hattori ed. 1981-1983. Language atlas of the Pacific area.

1人目の編者は危機言語本第1版、第2版の編者でもある。2人目は言わずと知れた服部四郎。この文献は地図のシートを束ねたもので、裏面に説明文がある。Maps of the Japan Area の Sheet 28 Ryūkyūan Dialects が元ネタ。担当者は、仲宗根政善、上村幸雄、外間守善、中本正智。この分野の第一人者が勢揃いしている。そして Introduction を服部四郎が書いている。1980年頃の研究の到達点と見てよい。

この説明文の重要なところは、集落 (シマ) ごとに異なる方言があることを強調している部分。分類をはじめる前に、

enourmous number of small dialects

we could even say that every hamlet has its own.

と説明する。そして、仲宗根政善の母が生前、今帰仁与那嶺からそれほど遠くない名護に行ってみたいと願っていたが一生叶わなかったという有名なお話が、各シマの孤立っぷりを示す例として挿入されている。さらには、分類について議論したあと、最後に

It is not surprising at all that the Yaeyama Islands have so many isolated dialects when one recalls the fact that every hamlet has its own dialect even on such a small flat island as Kikai in the north.

と繰り返す念の入れよう。異常なまでの言語多様性は、実際、言語の保存を行う上で、重要で、難しい性質である。この問題へ言及しているか否かは保存運動のまともさを判定するテストとして使える。この問題に触れないのは論外だし、軽視する奴は詐欺師だと思えばよい。

さて、分類だが、どういう基準で行うかも重要。服部は「全体的な構造」に従って方言をグループに分類すると宣言する。

classify the dialects into several groups in terms of overall structures

つまり、何が重要な違いで何がそうでないかについて、研究者の直観以上に何かあるわけではない。牧歌的な話。日本の他の地方を見ても、Sheet 26 Ainu Area: Hokaidō and Southern Sakhalin では、服部・知里による言語年代学に基づく基礎語彙共有率を使って方言間に線を引いている。Sheet 27 Japanese Dialects では上野善道がアクセント体系によって本土諸方言を分類している。一貫性も何もあったものではない。

結論として、地図には日本と台湾を分離する Language Boundary がまず引かれている。日本内部には5種類の Dialect Boundaries が設定されている。Level No. 1 が本土と琉球を分離し、Line No.2 が Northern (Amami-Okinawan) と Southern (Sakishima) を分離する。ここから先は論争があったことが記されている。奄美群島の徳之島と沖永良部島の間に Line No.3 が引かれている。もともと上村が Line No.4 を提案していたが、仲宗根が Line No.3 を提案し、中本、外間、服部が賛成して採用されたという。与論島と沖縄本島の間の線は中本が Line No.3 とすることを提案したが、外間が否決したという。

そもそも線の基準が謎だが、下位の線は以下のように説明される。Line No. 4 は mutual communication generally impossible or very difficult で、Line No.5 は noticeable dialectal difference which is not so great as to cause impossibility of mutual communication という。

Ethnologue は Line No.4 以上を言語認定していることになる。参考までに服部らが地図に載せた名称を載せておく。上位が Group。

Amami-Okinawan Group
Sakishima Group

その下に Dialects。もちろん複数形である。

Kikai Dialects
Northern Amami-Ōshima Dialects
Southern Amami-Ōshima Dialects
Toku-no-shima Dialects
Oki-no-erabu Dialects
Yoron Dialects
Kunigami Dialects
Central Okinawan Dialects
Miyako Dialects
Yaeyama Dialects
Yonaguni Dialects

さらに宮古が Line No.5 で細分類されている。

Miyako-jima Dialects
Irabu-jima Dialects
Tarama-Minna Dialects

線は引かれていないが、いくつかの集落に ▲ が記されており、isolated characteristics when compared with the neighboring dialects と説明される。奄美大島の佐仁、喜界島の小野津、沖縄の久高、鳥島は本文に説明がある。宮古の大神は説明がない。八重山には ▲ が記入しまくってある。執筆時点では分類を確立するには調査不足だっただけではないかという印象を受ける。

あと、意外と重要なのは、分類以外の線も引いてあること。Sphere of strong/less strong/weak influence of the Shuri Dialect という 3 種類の線が引いてある。同様に奄美大島の名瀬方言も影響圏を図示。

まとめ。

服部らは「全体的な構造」、要するに言語学者の直観によって分類を行っている。
Ethnologue は危機言語本よりも細かい粒度で言語を認定している。おおよそ島単位。
服部らは Amami-Okinawan を南北で2分割して、その境界を徳之島と沖永良部島の間に引いている。この分類は珍しいし、作成者の間でも議論があった。
危機言語本の Amami に相当するグループが設定されているが、名前は与えられていない。仕方がないので Ethnologue は Northern Amami-Okinawan とよんでいる。Amami-Okinawan の北半分という意味であって、地理的意味での沖縄は範囲外。
危機言語本の Kunigami に相当するグループはない。Kunigami は国頭地方の諸方言を指す。
危機言語本の Okinawan に相当するグループは Central Okinawan とよばれている。

研究史 (2): Uemura (2003)[1992]

危機言語本で出典として挙げられていた Uemura (2003) は、元は『言語学大辞典』の「琉球列島の言語」という項目で、これを英訳したもの。

上村幸雄は上述の Language atlas of the Pacific area の作成者の一人であり、唯一存命である。Uemura (2003) は出版時期こそ比較的最近だが、旧世代の研究者。

基本認識はこれ。

A detailed classification would see that each community in the archipelago has its own dialect, but more roughly put there are large dialect divisions just about between each large island.

上村は琉球王国の覇権を強調しすぎているきらいと、言語と方言の用語の区別に拘泥しすぎている印象があるが、そこまで変なことは言っていない。分類の節に入る前に言語の数について簡単に議論している。

If, when deciding whether two related languages or dialects should be called languages or dialects, one focusses only on mutual intelligibility and linguistic differentiation, then the term 'Ryūkyūan language' would be appropriate. If one looks at major differences between dialects on the Ryūkyū archipelago in the phoneme inventory and the like, then at least two languages (Northern Ryūkyūan and Southern Ryūkyūan), or even five languages (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) could be recognised, and one could speak of the Ryūkyūan languages.

原文は日本語で、単複が曖昧なので、訳者 (Wayne Lawrence) の解釈が入っているように思う。音素目録とかの違いで分類するというのと相互理解可能性との関係が不明瞭。ともかく、Kunigami は数に入っていないし、Amami, Okinawan の範囲も、明示はしていないが、常識的には奄美群島と沖縄諸島に対応するのだろう。

分類に関する議論は Subclassification of the Ryūkyūan language という節に書かれている。この節では分類基準を明示していない。大きく Amami-Okinawa Dialect Group と Miyako-Yaeyama Dialect Group に分けるところ、Miyako-Yaeyama を Miyako, Yaeyama, Yonaguni に 3 分割するところは以前と同じ。Amami-Okinawa Dialect Group の下位分類が違う。この節の構成はちょっと面白い。上村はまず8つの下位分類を示す。例によって dialects と複数形。

Kikai-jima dialects
North Amami Ōshima dialects
South Amami Ōshima dialects
Tokunoshima dialects
Okinoerabu dialects
Yoron dialects
North Okinawa dialects
South Okinawa dialects

服部らからの目立った違いは Central Okinawan が South Okinawa になっていることぐらい。

そのうえで、中間的な分類を提案していく。まず 2-3-4 と 5-6-7 が音素体系的に対立すると言う。前者に名前はつけないが、後者は Okinoerabu-Yoron-Northern Okinawa group とよんでいる。この範囲を指す包括的名称が存在しない以上、上村が3つの名前を並置したのは自然。狂っているのは危機言語本の Kunigami という命名の方。

1 の喜界島は 5-6-7 と同じ音韻的特性を持つと上村は言う。1-5-6-7 というグループを提案しない理由を説明していない。喜界島の北端の3つの集落だけその特性を持たないので、扱いに困っているのだろう。一連の議論の最後に 5-6-7 と 8 は対立すると説明する。

この次に別の中間的分類を提案する。奄美群島 1-6 と沖縄諸島 7-8 の対立。上村は、この対立は17世紀初頭に薩摩藩が奄美の直轄支配を始めて以降の歴史を反映しているとして、

a subdivision on these principles does not reflect the genetic relationships among the dialects.

と主張する。唐突に genetic という議論が登場する。まるで、それまでの分類は系統的関係を求めていたかのような口ぶり。議論が混乱している。

まとめ。

Uemura (2003) は音素目録とかの違いで分類すると言いつつ、後になって genetic relationships がどうこうと言い出すなど、議論が混乱している。
Uemura (2003) は言語の数は2つ (Northern Ryūkyūan and Southern Ryūkyūan) あるいは5つ (Amami, Okinawan, Miyako, Yaeyama, Yonaguni) と主張しており、6つ認定する危機言語本と一致しない
Amami-Okinawa の下位分類は、Ethnologue と同じく、おおよそ島単位。中間的な分類は、言語学者が操作する抽象的な単位というニュアンスがうかがえる。
危機言語本の Amami の相当するグループは (喜界島を無視すると) 設定されていると言えなくもないが、名前は与えられていない。
危機言語本の Kunigami に相当するグループは Okinoerabu-Yoron-Northern Okinawa とよばれている。
危機言語本の Okinawan に相当するグループは South Okinawa とよばれている。

研究史 (3): Glottolog と Pellard (2009)

さて、前置きが長くなったが、ここからが本番。実は、Uemura (2003) 以降、あるいは危機言語本のオンライン版が出た後に、状況が一変している。最近の成果は Glottolog に反映されている。

既に触れたように、Glottolog は大規模な言語目録で、ISO 639-3 (Ethnologue) と同じように言語にコード (Glottocode) を割り振っている。統計的研究を行う際、複数の言語データベースを統合することがあるが、言語コードは名寄せに利用できる。私も以前は ISO 639-3 を使っていたが、情報が古すぎて前処理時地獄に苦しめられた。最近は Glottocode を使っている。

さて、Glottolog の琉球諸語の分類はこれまで見たものとは全然違う。

North Ryukyuan
- Amami
  - Kikai
  - Nuclear Amami
    - Okinoerabu-Tokunoshima
      - Oki-No-Erabu
      - Toku-No-Shima
    - Oshima
      - Northern Amami-Oshima
      - Southern Amami-Oshima
  - Yoron
- Okinawa
  - Central Okinawan
  - Kunigami
Ryukyu Sud
- Macro-Yaeyama
  - Yaeyama
  - Yonaguni
- Miyako

ほぼ二分木になっていてやたら階層が深かったり、、Yaeyama, Yonaguni をまとめた Macro-Yaeyama があったり、Ryukyu Sud という謎のフランス語があったり。North Ryukyuan が Amami と Okinawa に二分されているところが新しい。沖縄を南北に分割するのはこれまで通りだが、奄美の中の分類は何が起きたのか理解できないくらい違う。

Glottolog は Pellard (2015) を出典とするが、この文献には分類結果だけが書いてあって議論はない。議論は以下の博士論文にある。

Thomas Pellard. 2009. Ōgami: Éléments de description d'un parler du Sud des Ryūkyū. Linguistique. Ecole des Hautes Etudes en Sciences Sociales (EHESS).

表題の通り宮古の大神方言を記述したものだが、9章前半で琉球諸語の分類を議論している。この論文は私の最近の趣味の研究にも関連していて面白い。言語学者が生物学由来の統計的系統モデルを使っているという驚きの内容。ただ、この21世紀に学術研究の成果をフランス語で発表されても困る。英語版を出して欲しいところ。

Pellard (2009) の一番の貢献は、何のために分類するかを明確にしたこと。系統樹を作ることに特化している。Pellard (2009) 以前の分類は、現代語群をそれらが持つ特徴群の類似度 (あるいはその反対の距離) によって階層的にクラスタリングしていた。しかし、何を類似度とすべきかに明確な基準がなかったし、そもそも唯一の正解が存在する性質の問題ではない。だから矛盾する証拠が見つかったときに何を優先すべきか不明だった。系統樹を作るという目的を定めると、基準が明確化する。すなわち、ある言語対が同じ特徴を持っている理由は以下の4つに分類できる:

偶然の一致
普遍的に起こりやすいから
接触の影響
共通祖先から引き継いだから

系統樹を作るために必要な特徴は最後の一つだけ。残りの特徴は邪魔なので捨てるべきということになる。

この方針は、分類のための特徴として何を採用するかにも影響する。以前は音韻的な分類が採用されていたが、Pellard (2009) はこれを却下する。例えば、p > ɸ > h や k > h が Amami-Okinawa の分類に採用されていたが、これらは起きやすい変化なので、独立に起きたか、接触による影響の可能性が高い。ちゃんと系統樹を作るには、共通祖先から引き継ぐ可能性が高い特徴に着目しなければならない。

Pellard (2009) は不規則な音変化、基礎語彙の発生、意味変化など、計70個を特徴として採用し、統計的系統モデルによって系統樹を作っている。Pellard (2009) の特徴はバイナリという点では Gray-Atkinson 系の同源語特徴と同じだが、中身はかなり違う。Pellard (2009) のデータでは、共通祖語の段階では 0 であり、系統樹上のどこかで一度だけ不規則な変化が起きた (0 > 1) ような特徴が集められている。特徴の喪失 (1 > 0) は、モデルの上では系統樹上の複数の箇所で起こり得ることになっているが、その確率は低い。

Pellard (2009) は最近流行りの Bayes モデルではなく、PHYLIP という大昔からあるソフト (具体的なモデルは clique と dollop) を使っている。それは別に悪いことではない。この研究の肝はデータの作り方にあるから。Pellard (2009) が採用した特徴は、偶然の一致の可能性が低いし、不規則変化を見ているので普遍性もない。ただ、個別の特徴をある言語が持つに至った要因が接触 (横) か系統 (縦) かを識別するための手掛かりが欠けている。仕方がないので、特徴群全体をうまく説明するような系統樹を探している。このあたりは改良の余地がある気がする。

得られた系統樹は、Glottolog のものと大体同じだが、いくつか重要な違いがある。

奄美と沖縄は安定的に分離されている。Uemura (2003) はこの区分は genetic な関係ではないと主張していたが、Pelleard (2009) はこれこそが genetic な関係という主張。
Amami-Okinawa (Northern Ryukyuan、Glottolog の North Ryukyuan) は従来自明のものとされていたが、このノードはできたりできなかったりする。Pellard (2009) は図9.5で、? という謎ノードを描いている。ただし、Pellard (2015) は Northern Ryukyuan を復活させている。
Pellard (2009) では喜界島はそもそもデータに含まれていない。Glottolog が Kikai を Amami の子供にしている根拠は不明。
Glottolog の Nuclear Amami, Okinoerabu-Tokunoshima にあたるノードに Pellard (2009) は名前をつけていない。
Pellard (2009) は Okinawa を Nord と Sud に分割しており、Glottolog の Kunigami と Central Okinawan という名前は Pellard (2009) に基づかない。Pellard (2015) はそもそも Okinawa よりも下の分類を載せていない。

まとめ。

Pellard (2009) は系統樹を作るという明確な目的のもと分類している。
言語と方言の違いなんてものはこの議論と無関係であり、無視されている。
危機言語本の Amami に相当するノードは存在しない。系統樹上でずたずたに分断されている。
危機言語本の Kunigami に相当するノードも存在しない。
危機言語本の Okinawan に相当するノードは Okinawa Sud とよばれている。

ここ数年で出版された文献は、Pellard (2009) をもとにした Pellard (2015) の系統樹を採用している印象がある。Pellard (2015) を収録した Handbook of the Ryukyuan Languages、田窪行則編. (2013).『琉球列島の言語と文化』、田窪行則ほか編. (2016). 『琉球諸語と古代日本語』など。よく考えると、すべて Pellard が関わっているけど。

言語研究と保存運動の乖離

ここまで延々と従来研究を紹介してきた。見てわかるように、危機言語本が認定する「言語」は、名前がまずいだけでなく、学説によっては存在すら否定されている。Pellard (2009) のおかげで最近は特に旗色が悪い。ただし、Pellard (2009) が決定版かというとそんなことはない。今後の研究の進展によってこの説が上書きされる可能性が高い。重要なのは、そういう学術論争の対象となるような抽象的かつ不安定な単位でしかないこと。話者がその存在を想像するような地に足の着いたまとまりではない。そんなものを保存運動に持ち出して何の意味があるのか。学問を権威づけに利用して、自分たちが望む単位を話者に押し付けたいのだろうか。

具体的な分類が今後どうなるかは別として、分類方針の転換は覆らないだろう。昔のような現代語のまとめあげは流行らない。明確な基準の存在しない不良設定問題であり、複数の対立する説のなかからどれを選ぶべきか決められない。系統樹なら、何が正解かはともかく、何をすべきかは明確。

言語研究の系統樹への指向は、保存運動にとって都合が悪い。以前なら、分類の結果得られる中間ノードは、いくつかの現代語をまとめあげた現代のまとまりだった。系統樹における中間ノードは祖語である。昔の言語であって現代語ではない。現代語のまとめあげなら、面を被覆しないとサマにならないが、系統分類はそうでもない。点と点の関係を議論すれば充分に研究になる。実際、Pellard (2009) のデータには喜界島が欠けている。

目的の明確化とともに手法も先鋭化している。本質主義の色彩すら帯びている。Pellard (2009) の議論にあるように、ある言語対が共有する特徴のうち系統分類に必要なのは共通祖先から引き継いだものだけ。他の特徴は分類のさまたげとなるので排除する。系統樹作成に使われたアルゴリズム (clique と dollop) は、単純な距離に基づくクラスタリングとはまったく異なる結果を吐き得る。ある言語対が似ていると素朴に思っていたら、その類似は本質的ではないと怒られて、別の差異を持ち出されるのである。

それで言うと、Uemura (2003) のように「琉球王国」を持ち出すのは筋が悪いし、服部らの地図に示された「首里方言の影響圏」なんてものは排除の対象である。いわゆる琉球諸語内部の分岐は、明らかに琉球王国の誕生に先行する。琉球王国の影響で生じた接触は、系統樹を作る立場からするとノイズでしかない。

こうして議論が整理されてくると、「琉球」という命名が失敗に思えてくる。歴史的には「琉球」はそんなに広い範囲を指す言葉ではない。もともと「琉球」は沖縄本島のこと。*6訳語系の資料を見ると、漢語の「琉球」を琉球語(?)では一貫して「沖縄」と翻訳している。琉球王国が征服した奄美、宮古、八重山は、琉球の属領ではあっても琉球の一部という感じはない。つまり「琉球」とは琉球王国であり、系統樹作成に際して排除すべき対象である。そうして頑張って「琉球」を取り除いて残ったものを「琉球」とよぶのはいかにも都合が悪い。同じように「琉球」以前の姿を追い求める傾向にある民俗学にならって「南島」とよぶのがよいと思う。*7

言語研究と保存運動の乖離はこれにとどまらない。昔の研究はいかにもな方言調査だったが、最近は普通に記述言語学をやるようになっている。文法、辞書、テキストをそろえて体系的に記述しようという方向。上述の Pellard (2009) は宮古の大神方言を記述したものだし、他にもひたすら奄美大島の湯湾方言をやったり、与那国方言をやったりしている人がいる。驚くほどストイック。

ここで問題になるのは、集落ごとに異なる方言があること。危機言語本のいう「言語」は一つの体系ではない。相互理解可能性はここでは関係ない。原理主義的には、別の体系があれば別に記述すべきということになる。与那国島なら内部の差異が少ないから一つで良いかもしれないが、奄美大島ならそうもいかない。実際、記述系の人は、大神とか湯湾のような集落を対象にしている。

調査対象の集落の選定も保存運動に都合が悪い。奄美大島北部の中心は名瀬だが、調査対象に選ばれたのは宇検村湯湾のようなど田舎。おそらく方言の残存状況を考慮してのことだろう。大神が選ばれる理由は簡単で、めずらしい特徴を持っているから。いずれにしても、危機言語本の認定する「言語」をまとめあげる求心力を持たない。そもそも、喜界島のように、同程度の威信の方言が林立していて中心が存在しない場所もある。あるいは、危機言語本が奄美大島、徳之島、喜界島を範囲として Amami を認定していることに従うと、喜界島はまるごと奄美大島、徳之島と一体化させなければならないのだろうか。そんな馬鹿な話はない。

ここまではいわゆる琉球諸語を議論してきたが、ここで挙げた諸問題は何も琉球諸語に限ったものではない。系統分類でもめている言語群なんて世界中にある。記述の対象が「言語」よりも下位の単位になることもありふれている。

Glottolog のような最近の言語目録はこうした状況を前提とした設計になっている。Glottolog の設計を議論する Nordhoff and Hammarström (2011) は、言語と方言の区別なんて言語学者にとってはどうでも良いと宣言する。

The question of what is a dialect and what is a language is a very old one, and up to now, there are no agreed upon criteria how to resolve it. While it is a hotly debated topic among the general public, there is general consensus among linguists that this question is of relatively minor interest.

そして languoid という概念を導入する。

Languoids replace the traditional concepts of dialects, languages, and language families in the Glottolog/Langdoc project. Languoids are mathematically sets, which can contain other languoids, or doculects. Languoids may not be the empty set.

例えば、Yuwan, Amami Ōshima, Ryukyuan などは一律に languoid。

趣旨は同じだが、Gord and Cysouw (2013) はさらに議論を先鋭化させている。念頭にあるのは、ちょうどここまで見てきたような分類をめぐる混沌とした状況。

However, consensus about the identification of languages is often hard to achieve and, moreover, often turns out to be incorrect as new facts becomes known. Therefore, we expect that language experts will never be fully satisfied with the range of decisions that are taken to develop a standard like ISO 639-3, especially with regards to the delineation of groups of closely related speech variants into specific languages. In some cases, it may be that a given expert simply disagrees with current consensus. In others, it may be that a lack of information has made that consensus inherently fragile, and everyone agrees that it could change quite abruptly if more was known about the linguistic situation of a specific group or area.

そこで過激な解決策が提案される。言語目録を作る上で一番の基礎であり、論争の少ないところまでさかのぼる。ある文献である言語が説明されているということ自体が争われる可能性は低い。ある文献で説明されたある言語を doculect とよぶことにする。文献の数だけ doculect がある (一度に複数の言語が説明されていればそれ以上)。doculect A, doculect B, doculect C が同じものを指していることが自明の場合もあるだろう。その場合は、{A, B, C} という集合で languoid a が定義される。A と B は同じだが C は違うという主張があった場合は、a と並行して languoid b := {A, B}, languoid c := {C} をたてる。文献上は a と b が同じ名前でよばれる場合があるかもしれない。ちょうど危機言語本が既存の言語名を別の意味で使って混乱をもたらしているように。仕方がないので doculect や languoid には ID をふって ID で管理する。あと、厳密に書くのは大変なので、ここでは「言語」とよんだけど、もちろんそれは方言かもしれない (あるいは語族かもしれない)。そんなのどうでもよいし。

おわりに

危機言語本はあっけにとられるほど雑に日本を扱っている。危機言語業界において日本は南北の縄張りのはざまに位置するから。その内容はこれまでの研究経緯を無視していて、混乱をもたらすだけの有害無益なもの。しかも直後に出た研究成果によってオワコン化している。悲惨の極み。

個別の事例以前に、「言語」を認定していくという設計方針自体が実態にそぐわない。危機言語本のいう「言語」は、学術論争の対象となるような抽象的かつ不安定な単位でしかない。議論の出発点は、集落 (シマ) ごとに言語が異なるという現実を直視することであるべき。

保存運動において言語と方言の区別は本質的ではない。そもそも境界事例の扱いに困ってえいやと基準を決めるのは分類問題の常。この世界には一方には言語とよべる実体がありそうだし、もう一方には方言とよべる実体もありそうである。そこまではよいのだが、対象を網羅しようと思ったら、どこかで線引きをしないといけない。相互理解可能性というのはそういう文脈で登場する基準に過ぎない。「本土では東北から九州まで相互理解可能性の連鎖が途切れないが、琉球諸島では途切れる」と得々と語っても、知性の欠如をさらすだけ。当の話者からすれば、「だからどうした」というほかない机上の空論。

そんなこんなで、危機言語本やそれに群がっている人がアホなのは明らかだと思うのだが、正面からの批判を意外なほど見かけない。私が知る限りでは、西岡敏が懸念を表明しているくらい。例えば、呉人恵編『日本の危機言語』所収の西岡 (2011) では次のようにいう。

問題はこれらの「～語」がいったい何を指すかである。さきほども述べたように，琉球諸島で話されていることばは，集落ごとに異なる。それを「～語」という言い方でくくった場合，危機言語の中でも，より有力な言語のみを滅亡から救い，より弱小な言語を見捨てることにつながって行くのではないかという懸念が生ずる。

一応他にも、「～方言」から「～語」へのラベルの張り替えは問題の本質から目をそらすだけという別の人の批判も見た記憶がある。しかしいかにも手ぬるい。変なことを言っている人がいて、それが影響力を持っている場合には、ちゃんと滅ぼしておくのが世界平和のためだと思うけど。

ただ、言語研究者が危機言語本の枠組みに従っている感じはなく、単にスルーしているように見える。だいたい『日本の危機言語』からして、有名どころの水海道方言を入れたり、あえて東京弁を取り上げたりして、危機言語本の枠組みをあからさまに無視している。いわゆる琉球諸語の研究者も、危機言語本の「言語」を無視し、集落を単位として粛々と記録と継承に取り組んでいるように見える。例えば、田窪行則編『琉球列島の言語と文化』がまさにそんな感じ。

保存の単位を何にするかは究極的には話者に委ねるほかない。通じようと通じまいと、話者が同じと思えば同じだし、違うと思えば違うのだろう。もちろん話者は複数いないと始まらないし、「我々」というのは曲者である。n人をグループ化する方法の総数はベル数とよばれ、たった6人で203通りに膨れ上がる。さらには非対称性もある。集団 A は集団 B を「我々」の一部だと主張し、B は A とは別だと主張するというようなことは普通に起こりえる。一般には話者が多いほど保存に成功する確率は高まると期待される。表記の確立や教育の問題で、どのみち標準化は避けられない。保存を成功させるには、大勢の人間を同じ方向に動かさないといけない。それはまさに政治運動なわけだが、私がひとまず運動家とよんだ人々はなぜかそこを避けている。不思議に思っていろいろ理由を考えてみた。遅れた人々を啓蒙する進歩的な自分に酔っているだけで、泥臭い仕事を嫌っているのかと最初は思った。しかし、どうもそれだけではない気がする。そもそも話者のほとんどいない言語を子供に継承させるのは、経済的に非合理的な選択。非合理的選択をさせるためには非合理的な何かが必要で、それはナショナリズムにとてもよく似たもの。ところが保存運動 (のイデオロギー) にはまるような「進歩的」な人はナショナリズムは悪というドグマに縛られていて、自己矛盾を抱え込んでいるのではないか。「言語多様性」は苦し紛れに作られた概念だろう。この概念を危機言語話者に向けるのは冷静に考えるとひどい。たまたま辺鄙なところに生まれてしまったら、全体への奉仕を強要されるということを意味するのだから。

言語研究からは相当離れてしまったことだし、今回はこのあたりで打ち切る。頭が整理されたまた続きを書くかも。

*1:とりあえず運動家とよぶことにしたが、あまり適切でない気もしている。というのも、彼らが本当に言語を保存したがっているとはとても思えない。保存について議論すること自体が目的化しているように見える。

*2:私がやっているのは言語現象の統計モデル化。言語の記述などにはまったく手を出していないし、そうした研究者との接点もほとんどない。

*3:またブログ記事を書くのに3ヶ月もかかってしまった。

*4:ちなみに、第2版は UNESCO/Japan Trust Fund for the Preservation of the Intangible Cultural Heritage の資金提供で作成されたとのこと。

*5:SIL はキリスト教布教という不純な目的を持った団体なので、この体制はいかがなものかと思っている。

*6:より古い「流求」についてはここでは考えない。

*7:英語だと意味的に Austronesian とかぶるので、訳さずにそのまま Nantō を採用すればよい。

2016-11-03

Hmong-Mien Langage History

言語本

Martha Ratliff. (2010). Hmong-Mien Language History.

なぜか一般受けした駄文を一時の気の迷いで書いてしまったが、平常運転に戻る。本の紹介。それも、アフィれない程度に入手困難な本。

モン・ミエン語族に関する本。現代語の紹介とかぬるい話は抜きにして、ひたすら Proto-Hmong-Mien を再構。現時点で最新に近いと思われる。*1

話の前提として、上古音 (Old Chinese) 再構問題がある。最近の定番は Baxter and Sagart. (2014). Old Chinese: A New Reconstruction (再構結果はウェブで公開されている)。*2 この本にあるように、Old Chinese が類型論的にクメール語のような構造を持っていたことはほぼ確実。すなわち

声調はなかった。中古音の平声 (A) は *-∅;、上声 (B) は *-ʔ、去声 (C) は *-h (< *-s)、入声 (D) は -p, -t, -k に由来する。
単音節とは限らない。例えば、「壯」が *k.dzraŋ で、「脰」が *kə.dˤok-s。具体的には tightly attached preinitial consonants と loosely attached presyllables の 2 種類が想定されている。完全な音節の前に、単純な構造の弱い音節 (あるいはそのようなもの) が先行する。クメール語の説明では sesquisyllabic という用語を見るが、Baxter and Sagart (2014) はこの用語を使わない。こうした語はおそらく元は 2 音節語にさかのぼる。
派生接辞を盛んに用いる。接尾辞 *-s で動詞から名詞を派生させたり、接頭辞 *N- で他動詞から状態の自動詞を派生させたり。

こうした特徴は典型的にはクメール語に見られる。同じオーストロアジア語族のなかでは、ベトナム語は声調言語で単音節で孤立語。でも、オーストロアジア祖語にまでさかのぼらなくても、Vietic の親戚に sesquisyllabic で派生形態素を持つ非声調言語が見つかる。Kra-Dai は Proto-Tai の時点で sesquisyllabic だったらしい。派生接辞の話は聞かないけど。

では、大陸部東南アジア (MSEA) 言語連合*3のなかで、残る Hmong-Mien はどうか。Ratliff (2010) によると、上述の Old Chinese の特徴は Proto-Hmong-Mien にもあてはまる。声調はなかった。Ratliff (2010) は disyllabism と言っているが、Baxter and Sagart (2010) が Old Chinese について言っているのと同様に、tight *NC- と loose *N-C- の 2 種類が存在した。派生接辞はというと、漢語の場合と同じような doublet が存在するので、接辞の痕跡を見ているっぽい。

面白い議論が 2 つ。一つは声調発生 (tonogenesis) の時期 (Chapter 3)。鍵となるのは漢語からの借用語。Hmong-Mien に見られる漢語からの借用語には、両者の間で tone category が一致するものがある。一次的な ABCD の分化だけでなく、語頭の有声無声の対立が高低に転化したと推測される二次的分化 (A1, A2, B1, B2, ...) も対応する。借用元 (漢語) と借用先 (Hmong-Mien) はどの段階だったか。tonal か atonal かで 2x2=4 通りの組み合わせが候補に挙がる。Ratliff (2010) は他の言語間の借用事例を見ながら、その一つ一つ検討する。その結果、声調が規則的に対応し得るのは双方が atonal な場合だけだと主張する。なお、従来の説では、声調のシステムそのものが漢語から Hmong-Mien に借用されたと考えられていたとのこと。Ratliff (2010) に従うと、そうした借用は Old Chinese の時期に発生し、その後、tonogenesis が並行的に起きたことになる。それはそれで不思議な話。

ここからは私の妄想。超大雑把に言って、MSEA 型の tonogenesis は

disyllabic (atonal) -> sesquisyllabic (atonal) -> monosyllabic (tonal)

という過程をたどったことになる。狭義の tonogenesis は最終段階にすぎない。その前段階として、少なくとも sesquisyllabic になっていることが、狭義の tonogenesis の条件 (precursor) となる。sesquisyllabic というのも変わった特徴であって、MSEA の地域的特徴と言える。漢語、Kra-Dai の大半、Vietic のいくつは、Hmong-Mien は MSEA の核だけど、その周辺に、クメール語や、別の過程を経て tonal になった sesquisyllabic なビルマ語が存在する。オーストロネシア語族はその外側に位置する。Austronesia と Kra-Dai を兄弟とする仮説はおそらく正しいと私は思うし、そうでなかった場合も、両者の接触があった可能性は高い。広義の tonogenesis は Proto-Austronesian が離れてから発生したということになるか。そして日本語はさらにその外側にいる。稲作とか、文化的には関係があってもおかしくなさそうなのに、言語的にも遺伝的にもまったく無関係っぽいのが不思議なところ。

もう一つ面白いのは numeral classifier に関する議論。Hmong-Mien は numeral classifier を義務的に使うらしい。しかし、Ratliff (2010) は、助数詞のシステム自体を漢語から借用したと推測する。それどころか、Old Chinese においても商周時代の助数詞の使用は限定的であり、この地域における classifier の発達は同時期に起きたかもしれないと推測する。Hmong-Mien には numerical classifier と機能的にかぶるところが多い classifying prefix というのがある。接頭辞の起源が古いことを考えると、後者の方が古いはず。文法化という面では、noun => classifier と class noun => prefix は起きているが、class noun => classifier が起きていないとか。あと、Aikhenvald (2000) を引いて classifier system は通言語的に借用しやすいと言っている。ここはよくわからない。助数詞を使うシステムが既にある言語が新たな助数詞を借りるのが容易という話なのか、システム自体も容易に借りられるという話なのか。

Nichols (1994) は助数詞、声調、二人称代名詞 m- を人類による Pacific colonization の第3層だと主張していた。代名詞は置いておくとして、最初の2つは、こうして仔細に見ていくと、時間的にさほどさかのぼらない可能性が高い。しかも、系統的 (縦の) 関係ではなく、空間的 (横の) 関係を反映しているようである。

それにしても、横の関係は現象として謎すぎる。何とかして機序を解明したいところ。

2016年11月5日追記: 流音について、松本 (2006) は、lateral l と rhotic r の複式、いずれかだけの単式、いずれも持たない欠如型という類型を設定し、日本語を含む「太平洋沿岸言語圏」は単式流音によって特徴づけられるとぶちあげている。松本 (2006) は、ミャオ・ヤオ諸語の 8 サンプルをすべて単式に分類するのみで説明を付していない。これに対して、Ratliff (2010) は、Proto-Hmong-Mien に *l- と *r- の 2 種類を再構している。ただし、異説が少なくない様子。West Hmongic の [l] と [ɭ] の対立を Proto-Hmong-Mien にさかのぼらせる説や、*r- をまったく再構しない説などもあるらしい。Ratliff (2010) は West Hmongic の [ɭ] は *lj- に由来すると見ている。

漢語については、松本 (2006) は複式から単式に変化したとし*4、「この言語に純粋に内部的な要因だけで説明するのは無理であろう」(p.335) と述べて接触的変化を想定する。ただし、Bodman (1980) を引いて、「ある種の環境 (たとえば語末) では、l と r の区別が漢の時代まで保たれていたらしい」と言う。Baxter and Sagart (2014) は当然複式を採用している。Old Chinese の *r が Middle Chinese で retroflexion を引き起こしたというのが、中古音を説明する鍵になっている (例えば「住」 *dro(ʔ)-s > drjuH -> zhù)。Middle Chinese の l- は Old Chinese の *r(ˤ)- に由来する (例えば、「犂」 *C.r[ə][j] > lij > lí)。証拠はいろいろあるが、例えば Proto-Min で *z- に対応すること。*r > l は、先行して *l が消滅した穴を埋めたもの。Old Chinese からは *l- > y-, *lˤ > d-, *lˤr- > dr- と変化したという (例えば、「夷」*ləj > yij > yí、「田」*lˤiŋ > den > tián)。*lˤ > d の最初の証拠は紀元後1世紀だというから、*r > *l はさらに下ることになる。あと *l-, *r- に対応する無声の系列の *l̥-, *r̥- も再構していて、Middle Chinese の th- に対応するという (例えば、「湯」*l̥ˤaŋ > thang > tāng)。

松本 (2006) を読むと、素朴な印象として、流音の類型は安定的という割には例外を頑張って説明し過ぎではないかと思う。漢語に対する説明もひっかかる。チベット・ビルマ系の言語が「言語接触、それもクレオール化と呼ばれるような言語混合を伴った激しい接触的変化」(p.335) を受けて漢語が成立したというには、流音まわりの変化の時期が新しすぎる。仮に激しい言語接触があったとして (これ自体はおそらく正しい)、Old Chinese は接触後の言語ではないか。もし Proto-Sino-Tibetan では複式だけど Old Chinese までに単式に変化したというなら納得できる。実際には Old Chinese は複式。その後単式に移行した原因を接触に求めるのは妥当なのか?

*1:この記事を書いている最中に新しい論文を見つけた。Weera Ostapirat. (2016). Issues in the Reconstruction and Affiliation of Proto-Miao-Yao.

*2:漢語音韻学業界はジャーゴンに満ち溢れていて近寄りがたいことが多いが、Baxter and Sagart (2014) は普通の用語を使っていてわかりやすい。

*3:Ratliff (2010) は Matisoff に従って Sinosphere と言うが、Sinocentrism の香りが微妙。

*4:英語の Korea は、l ではなく r だから日本語に由来するという私の議論は、松本 (2006) の議論の応用。

2016-10-17

ニューラル機械翻訳と記号幻想の死

ネタ

ニューラル機械翻訳が最近ひどいことになっている。科学技術論文の中日翻訳の結果を見て、ボスの中では機械翻訳はできてしまったことになっている。長年開発してきた用例ベース機械翻訳システムもあっさりお払い箱。しかしボスは満足している。既存研究の再実装にいろんなチューニングを加えただけで、論文にできるような新規性は何一つないにも関わらず。そのぶん、機械翻訳以外をやっている私たちへの風当たりがきつい。

そんなある日、AIが翻訳の不可能性に気付く日というブログ記事を見つけた。率直に言えば、懐かしさすら覚えるひどい代物。ここ2、3年ほどの機械翻訳研究をまったく追わないまま、聞きかじった話を適当に組み合わせるとこうなるのだろう。しかし、いままでぼんやりと考えていたことが、いい感じにツッコミどころとして配置されている。この機会に言語化してみようという気になった。なお、ブログ記事で引用されている文献は一切確認していない。

教師あり学習としての機械翻訳

ニューラル機械翻訳に限らず、機械翻訳の入出力は単純明快。源言語のテキストを入力として受け取り、目的言語のテキストを出力する。テキストといっても、現在のシステムの処理単位は基本的に文。

そうしたシステムをどうやって作るか。翻訳に必要な知識をどうやって計算機に教えるか。人間が翻訳規則を直接書いていた大昔ならいざしらず、現在は計算機自身に翻訳のための知識を獲得させる。そのために、源言語と目的言語の文ペアを大量に計算機に与える。日英や日中なら百万のオーダ。その大量の文ペアから、どういう入力に対してどういう出力をするかという対応を計算機が学習する。教師データと完全一致する文しか翻訳できないようでは困るので、ある程度汎化した形で対応を学習する。教師データから学習するので教師あり学習といえる。*1

では、教師データである源言語と目的言語のペアは誰が作ったのか。人間である。計算機は人間が翻訳した結果から学習し、その結果をもとに未知の源言語テキストを翻訳するのである。翻訳不可能性もへったくれもない。人間が、目的言語に等価な表現がなくて困り、適当な近似的表現を編み出していたなら、計算機はそれを学習する。それが計算機に期待された動作。源言語のテキストが表現しているものが、いままで人間が目的言語で表現したことないもので、翻訳に苦労することなんていくらでもあると思う。そんなものを機械翻訳が魔法のように翻訳してくれるわけがない。そんなことは期待されていない。実際、科学技術論文だけを与えて学習した中日翻訳システムは、「你好」すらまともに訳せない。

現状の確認

機械翻訳の従来の定番手法はフレーズベース統計的機械翻訳とよばれるもので、Google Translate の中身も基本的にはこれ。いわゆる深層学習とは無縁だったはず。

機械翻訳はそれなりに大掛かりなタスクであり、ニューラルネットワークが華麗に復活したあとも、しばらくはニューラルネットワークの使いみちはサブタスクを解くことだった。

やがて源言語から目的言語への翻訳をニューラルネットワークで一気に行うモデルが提案されるようになった。2014年が当たり年で、これとこれは、精度的には従来手法を下回っていたものの、唖然とするほど単純なモデルでそれなりの精度を叩き出したことで衝撃を与えた。それまでは、機械翻訳といえば、頭の良い人が計算量の爆発と戦いながら、精緻なモデルを頑張って作る分野だった。*2 今までの苦労は何だったのか。

これらのモデルには長い文に弱いという欠点があったが、同じく2014年に提案された改良版で解消軽減されている。現在定番となっているのはこの手法。

Google が発表したニューラル機械翻訳もこの流れ。*3 2016年9月には Google Translate の中英翻訳がニューラル機械翻訳に置き換えられている。他の言語対もそのうち置き換えられるだろう。

記号操作の排除

言語は少なくとも表層的には記号列でできている。記号への思い入れが強い人がいて、記号だけで一つの業界ができていたりする。しかし、記号の背後にある意味についてはいまだに誰も正しい扱い方を知らない。意味についても記号の操作だけで何とかできると考える人がいた。isa(Socrates, Man) みたいに記号によって記号同士の関係を記述するとか、Woman を +HUMAN, +ADULT, -MALE のように別の記号の組み合わせに分解して表現するとか。少なくとも昔の人工知能研究はそんな感じだった。でも、人間のような天然知能は記号操作だけを行っているわけではない。結局、記号操作だけで完結する実用的なシステムが作られることはついになかった。ニューラル機械翻訳はそうした記号幻想に引導を渡そうとしている。定番化した手法の時点で記号排除が進んでいるうえに、最近の流行はより一層暴力的に記号を扱うこと。

ニューラル機械翻訳であっても、入出力は源言語と目的言語の文、つまりは記号列。しかし記号列なのは入り口と出口だけで、その間をつなぐ経路からは記号が徹底的に排除されている。

ニューラル機械翻訳は、広くは sequence-to-sequence (seq2seq)、つまり系列から系列へ変換する手法の一種として実現されている。源言語系列は一度に全部受け取るが、目的言語側では記号を一つ一つ出力する。少しややこしいが、システムへの入力は (1) 源言語記号列と (2) システム自身が途中まで吐いた目的言語記号列。これらをもとにシステムは目的言語の次の記号を出力する。

日英翻訳を例にとると、源言語の記号列「私は学生です。」( は終了を表す特殊記号) と目的言語の途中までの記号列「I am a」を受け取ったとき、システムは次の出力記号として「student」を吐く (ことが期待される)。出力の頭では、源言語の文だけを受け取った状態で「I」を吐くし、「.」を吐いた次はを吐く (ことが期待される)。

システムの中身を直感的に説明するのは難しい。LeCun 御大の例えをもじって、ノブを使った説明を試みる。機械翻訳というブラックボックスには、上部と下部に大量の穴があいていて、それぞれ入力と出力に対応する。上部の適切な穴に水を注ぐと、下部の適切な穴から水が出てくる。上部と下部の穴の間には複雑にからまったパイプがあり、途中で分岐 (というより分身) したり合流したりするし、途中に水を貯めている箇所があったりもする。そういう箇所にはノブがあって、水の流れを制御する。実際には、量が増幅されたり、負の値をとったりするので、水で例えるのは微妙だけど。

上部と下部の穴は何を表すか。いま、源言語と目的言語の語彙をそれぞれ3万に制限するとする。足りない語は無理矢理という特殊記号に変換してしまう。そうすると、源言語の各単語に対して、3万個の穴を用意し、そのうちの一つだけに水を注げばよい。「私」なら42番目の穴、「は」なら3番目の穴といった具合。源言語文がを含めて 6 つの記号だとすると、それは 6x3万=18万個の穴に対応する。出力済みの単語も同じように上部の穴に対応していて、水を注ぎ込む。下部の穴は、次の単語を表す3万個の穴。そのうちの一つから水が流れ出す。802番の穴なら「student」といった具合。

学習とはノブを調整すること。ノブを適切に調整していないと、別の穴からちょろちょろと水が漏れたりする。正しい穴だけから水が出るようにノブを調整する。こういった階層の深いシステムであっても、充分な教師データを与えれば適切にノブを調整できることがわかった。それが深層学習とよばれているもの。とはいえ、途中を流れている水を見ても、何が起きているのか人間には (システム設計者ですら) さっぱりわからない。

そろそろノブの例えが厳しくなってきたのでここでやめにするが、最後に一つ付け加える。システム内部は、水の流れが多いか少ないかという数量で制御されている。確かに入り口と出口は離散的だけど、中は連続値で支配されている。記号の出る幕はない。

記号の連続空間表現

機械翻訳において、意味はどのように扱われているのだろうか。ニューラル以前は、記号同士を直接結びつけようとしていた。素朴には、例えば、英語の「cat」と日本語の「猫」を結びつけておけばよい。しかし、そう単純にいかないからシステムが複雑化していく。「bank」が「銀行」と「土手」に対応するといった曖昧性、「punctual」と「時間に正確だ」のように単語単位では扱えない対応など。そこで、ニューラル以前のフレーズベース統計的機械翻訳がとった対策は 2 つ。(1) 単語ではなく句を単位にする。(2) スコアによって曖昧性を解消する。フレーズベース統計的機械翻訳は、句単位での源言語と目的言語との対応にスコアを紐付ける。翻訳時には、とにかく候補を列挙して、スコアが最大となる訳を選んでいた。スコアのような非記号的要素が加わったとはいえ、記号同士を直接結びつけていた。

ニューラル機械翻訳は記号同士を直接結びつけるのをやめてしまった。システムの中で何が起きているのかよくわからないが、入力直後と出力直前の処理であればまだ想像できる範囲内。

入力の各単語は、まず連続空間表現 (分散表現) に変換される。(-1.26, 0.23, 0.92, ..., -0.54) のような、500次元くらいの実数値の羅列。こうした数値列が「私」、「は」といった単語タイプごとに辞書に格納されていて、入力単語は辞書引きによって連続空間表現に変換される。源言語の語彙を3万に制限していたので、3万x500で1500万個の実数値。目的言語も同じだけある。この数値列が実際のところ何を表しているのかよくわからない。ただ、「私」の連続空間における近傍を探すと「僕」が見つかったりする。意味的に似た単語が近くにくる傾向は確認できるので、何らかの意味を表しているのだろうと推測できる。

ニューラルネットワークの特徴量と意味論の素性は全然別物。前者は連続値で後者は離散的。実態を確認せずに「特徴量 = feature = 素性」という連想ゲームをやるのは無意味。

入力は置いておいて、出力直前の処理を見よう。出力単語の候補も辞書に格納されている。例によって語彙が3万で、500次元とする。やはり似た意味の単語は近くに集まっている。出力直前には、システムはこれと同じ長さ (500次元) の数値列を作り出す。システムはこの数値列と出力候補の3万語各々との内積をとり、一番大きな値を返した候補を出力する。内積は $\mathbf{a}\cdot\mathbf{b}=\left\|\mathbf{a}\right\|\left\|\mathbf{b}\right\|\cos\theta$ と変形でき、長さがほぼ同じと仮定すると、単なる cosine 類似度になる。つまり、システムが作った500次元の数値列に一番近い連続空間表現を持つ単語を選んでいると解釈できる。これは面白くて、システムはまず次に出力したい「意味」を作って、次にそれを一番うまく近似する単語を選んでいることになる。

出力直前の処理は、ニューラル機械翻訳が犯す誤りを見るとよくわかる。例えば、英日翻訳で、「Tunisia」を「ノルウェー」と翻訳するといった不思議な間違いが生じる。「チュニジア」も「ノルウェー」も地名としてテキスト中で同じように振る舞うから、連続空間上で近くに配置され、つい間違えてしまうのだろう。

要素還元主義のおわり

「bank」が「銀行」と「土手」に対応するといった曖昧性はどのように解消されているのだろうか。よくわからない。わからないので以下は単なるクソポエムだが、源言語文の文脈によって解消されているのではないかと想像する。

入力単語はまず連続空間表現に変換されると言ったが、この数値列から出力の意味を直接作ろうとするのではない。さらに変換をかませた結果を使う。この変換は、源言語の系列を前から後ろに流れてくる数値列と自身の数値列を合成することで実現される。同じように、後ろから前に流れてくる数値列と自身の数値列を合成しており、最終的には前向き版と後ろ向き版を結合したものを使う。

想像するに、この前向きと後ろ向きの流れが文脈を表していて、例えば源言語文で「deutsche」が「bank」の前に来ていたら、前向き文脈に引っ張られて「銀行」の方の意味が活性化するのではないか。本当にそんなことが起きているのか検証したいところ。

ともかく、ニューラル機械翻訳以前は、文をどうやって翻訳に有効な構成要素に分解するかに頭を悩ましていたのだが、文脈の数値列によって、ふわっと解消されてしまったように見える。

文法よいずこへ

翻訳においては、訳語の選択だけでなく、語順の変換も難しい。ニューラル機械翻訳以前は、源言語記号列を目的言語記号列に並べ替えるモデル (distortion model) がまず研究された。これは単なる列の並べ替えだが、それでは駄目で、統語構造をちゃんと考えましょうという研究も流行っていた。

ニューラル機械翻訳が来て、時計の針が巻き戻されてしまった。seq2seq は系列を見ているだけで、統語構造を陽には扱わない。陽には扱っていないのに、語順を適切に並べ替えたように見える結果を出力してくる。並べ替えができるということは、この巨大なモデルの膨大なパラメータのどこかに語順に関する情報が保持されているはずである。それがどう表現されているか以前に、どのあたりにあるのかすらよくわからない。誰か助けて。

再帰性は実は難しくない

人間が他の動物と異なるのは言語を持つことであり、言語を特徴づけるのは再帰性だと思っていた。人間と他の動物との知能にはそれなりの断絶がありそうだから、再帰性を扱うのはそれだけ難しいと推測してもおかしくない。しかしどうやら再帰性はそんなに難しくないらしい。単なる系列モデルで再帰性が扱えることが実証されてしまった。

2014年末に発表された Grammar as a Foreign Language は、seq2seq で構文解析を行う。入力は

John has a dog .

のような普通の文。出力は

(S (NP NNP )NP (VP VBZ (NP DT NN )NP )VP . )S

のように構文木を直列化したもの。ニューラル機械翻訳に既存の構文解析器の出力をひたすら食わせて訓練すると、少なくともその構文解析器の振る舞いは再現できてしまったようである。

何が起きているのだろうか? 自分が「(NP」を吐いたことを覚え続けておいて、適切な時点で「)NP」を吐く、あるいはスタックに非終端記号を積んだら、あとで取り出すということはできている。それに、「(NP」を吐いたら、NP 内という文脈に移行して、「)NP」を吐いたら、S 内という文脈に戻りつつ、既に NP を吐いたという追加情報を加えた文脈に移行できている。この2つを系列モデルで難なく行えることが実証されてしまった。それも実用的な精度で。

もちろんこれは教師あり学習であり、構文木は教師データとしてシステムに直接与えられている。幼児の言語獲得のように明確な教師データのない設定で実現できてはじめて再帰性を克服できたと言えるのだろうが。

Grammar as a Foreign Language は本気で構文解析を置き換えるというよりも、単なる一発ネタっぽかった。2016 年に発表された Recurrent Neural Network Grammars はもう少し本気さがうかがえる。やりかたは、seq2seq よりも遷移型 (前から順番に単語を読みながら構文木を組み立てる) の構文解析に近い。とはいえ、seq2seq と同様に、系列モデルの枠組みで、文脈を前から後ろに流しながら構文解析を行っている。

言語には系列データとしての側面と、再帰性を持つ構文構造という側面があり、両側面をどうやって統合的に扱うかは個人的にずっと謎だった。伝統的な構文解析は系列としての側面を軽視しすぎている印象があったし、従来の系列モデルは構文的側面を完全に無視していた。どうやら、系列を主体としつつ再帰性を扱うのが正解っぽい感触がある。

さらなる暴力の連鎖

ここまではテキスト処理だけを見てきたが、画像から説明文を生成する研究も2014年頃から流行っている。画像を入力すると、「A group of people shopping at an outdoor market. 」のような自然文が出力される。これも結局、源言語文だったものが画像に置き換えられただけで、翻訳の一種と言える。記号列だった入力が、最初から数値列で与えられる。テキスト翻訳の場合は源言語の情報を過不足なく目的言語に変換する必要があったが、画像の場合は、膨大な数値列から必要な情報を抽出する感じ。それを除けば同じ枠組み。どうしてこんな無茶苦茶なモデルが動いているのだろうか。

機械翻訳の多言語化も流行っている。一つの源言語から複数の目的言語へ翻訳したり、複数の源言語から一つの目的言語へ翻訳したり、さらには多対多だったり。途中のパラメータを共有している。単純には教師データが増えるという利点がある。それ以上に深い効果があるのかはよくわからない。言語対特有のエラーが減るという観察もある。

ニューラル機械翻訳では内部から記号操作が排除されたとはいえ、入力と出力は記号列である。記号幻想の最後の拠り所といえるここにも暴力の嵐は及んでいる。ニューラル機械翻訳では語彙を3万とか、比較的小さな数で固定しないといけない。語彙を増やすと速度が下がるし、低頻度語はうまく学習できないし、教師データに出てこない未知語は学習しようがない。そこで、入出力を単語単位で扱うのをやめて、あるいは補助的に、もっと小さな単位を導入する。文字単位で処理するとか、文字よりは単位が大きいものの、高頻度な文字の連鎖を適当に連結しただけの代物を使うとか。さらに、これは (まだ) 機械翻訳への適用ではないけど、文字よりも小さなバイト列を処理するという話すらある。もう無茶苦茶。

おわりに

記号絶対殺すマン自体は大昔からいて、おそらくコネクショニストとよばれていたのだと思う。よく知らないけど。おもちゃのような実験設定でいろいろ議論している昔の論文が探せばみつかるはず。機械翻訳は、そういう実験とは違って、大勢の頭の良い人が長年取り組んできた実際的な問題。この問題がある程度解けたとなると本物である。

複雑だと思っていた問題が、驚くほど単純なモデルで解けている。ではそれで満足かというと、まったく満足感がない。わかった感じがほとんどなくて、むしろもどかしい。機械翻訳は個別の現象を分析するには複雑に入り組みすぎている。

そもそも、ここに書きなぐったことがいつまで有効かもまったくわからない。異常な速度で新しい成果が報告されるので。

2016年11月12日追記: 11月11日頃から、Google Translate の日英翻訳もニューラルっぽい振る舞いをするようになった。公式の告知はないけど。

私には当たり前すぎて明確には書いてなかったけど、読者にとってはもしかしたら当たり前ではないかもしれないこと。機械翻訳という問題が最終的に解決したとは私は微塵も思っていない。従来よりも良い精度の翻訳が、従来よりもはるかに簡単なシステムで実現できるようになっただけ。機械翻訳は複雑な問題なので、現時点で解けない事例はいくらでもある。その本質的な難しさを垣間見たければ、takeda25 さんのブログ記事がおすすめ。

*1:ニューラル機械翻訳が来るまで、単なる文ペアは明示的な教師データとはあまり考えられていなかった。以前は要素還元主義的で、単語や句といった文より小さな単位で源言語と目的言語を対応付ける必要があった。単なる文ペアにはそうした対応の正解が付いていない。計算機は、正解データがないまま、そうした対応を学習する必要があった。だから、教師データのない状況で学習する、教師なし学習の一種とみなされがちであった。

*2:ニューラル以前の統計的機械翻訳モデルの、作っている人の頭のヤバさ加減を知りたければ、渡辺太郎ほか『機械翻訳』(2014) を眺めればよい。

*3:Google のシステムは金に物を言わせたえげつない代物で、うちの研究室程度の資金力では再現しようがない。

2016-04-24

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

言語

Sara Graça da Silva and Jamshid J. Tehrani. 2016. Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales. Royal Society Open Science.

各民族がある民話類型を持っているか否かをバイナリコーディングしたデータベースがあり、さらに印欧語族の年代付き系統樹がある。民話が系統樹に沿って継承されたと仮定し、祖語の状態を推定する。最初は 275 種類あった民話はフィルタリングされてどんどん減っていくが、残った一つ、ATU 330 'The Smith and the Devil' は印欧祖語が有していた可能性が高いと主張する。しかしこの主張は怪しいと思う。そのあたりをメモ。

最近締め切りにばかり追われていて、締め切りのない話は永遠に後回しになりそうなことにふと気づいた。この論文も公開されたのは 1 月で、その時雑記に書こうと思っていたのに、もう 4 月である。*1このままでは今までに身につけた資産を食い潰すばかりでジリ貧。そこで、休日は締め切りのことは忘れて新しいことをやると決めた。ということで、この雑記を見かけても、どうか締め切りの催促は控えてほしい。

本題。分子生物学由来の統計モデルは、言語に限らず文化的特徴にも適用されている。第2著者の Tehrani はその研究者。トルクメン刺繍の類型の伝承みたいな渋い研究をやっている。

文化的特徴となると、言語以上に水平伝播が問題になる。この分野では、系統的な縦の継承を phylogenesis、横の伝播を ethnogenesis と呼んでいるらしい。今回の研究は、phylogenesis が従来考えられてきたよりも強いという主張になっている。

まず素朴な感想として、人類学系の人たちは自分で系統樹を作る気がないというのが新鮮。系統樹はよそで作られたのを借りてくるものらしい。言語研究者としては、系統樹こそが推定したいものなんだけど。*2

系統樹を所与とすると、観測されたデータが系統樹に沿って継承されたかをテストできる。具体的な方法として、D という指標を見たり、Towner らの autologistic analysis をやって、基準に満たない民話をどんどん取り除いていく。これらの方法はこの論文で知った。機会があれば詳しく見るかも。D は系統樹上でのテスト。Towner らの手法は、観測データの分布を (1) 空間グラフと (2) 言語グラフの組み合わせとしてモデル化し、それぞれの要素の重みを推定する。空間グラフは、言語に紐付いた地理位置を見て、適当な距離内にある言語ペアに辺を引いて作ったグラフ。言語グラフは、語族、語派といった言語系統上のクラスタを二次元グラフで置き換えたもの。言語研究者からすると、系統樹を潰してしまうなんて、ありえない乱暴な処置。さすが人類学者。

これらの手続きにより、275 種類の民話から 76 種類が選抜される。この時点で怪しいと思うが、後回しにする。生き残りに対して、いよいよ系統樹上の状態を推定する。系統樹は Bouckaert et al. 2012 が基礎語彙をもとに作ったもの。変化のモデルは普通の連続時間マルコフ過程。0 が死んでいる状態、1 が生きている状態。変化の速度を制御する遷移行列を $Q = \begin{pmatrix} -\alpha & \alpha \\ \beta & -\beta \end{pmatrix}$ とすると、ある時点で状態 $i \in \{0,1\}$ のとき、時間 $t$ 後の状態 $j$ の確率は $P(x=j|\pi(x)=i,t)=\exp (tQ)_{i,j}$ で表される。系統樹と葉の状態は観測されているので、推定するのは内部ノードの状態と遷移行列のパラメータ。結論として、印欧祖語が有していた確率が 50% 以上の物語として、328、330、402、554 の 4 種類が残る。閾値を 70% に引き上げると 330 番だけが残り、これは別のテストも通過する。330 番は、都合の良いことに、鍛冶、つまり鉄器にまつわる民話。おかげで、著者らはクルガン仮説に関する楽しい妄想を語っている。

数式が出てきまくる統計の話だからといって、びっくりするような魔法があるわけではない。人手でも大雑把には推測できる。系統樹があって、葉ノードは黒 (生) または白 (死) で塗りつぶされている。内部ノードはまだ色が塗られていない。子供を見て、だいたい黒で塗ってあったら自分も黒だろうし、白なら白。拮抗しているなら半分黒、残りを白で塗りつぶす。そんな感じの操作を繰り返して根までさかのぼったとき、黒の割合がどの程度か。

結局、印欧祖語の状態推定に効いているのは、早期に分岐した (ことになっている) ギリシア語っぽい。民話 330 番の場合、ヨーロッパ系言語は 3 言語を除いてすべて保有しているが、残りは Hindi, Romani, Greek しか保有していない。Romani (ジプシー) はヨーロッパ側と考えると、インド・イラン系ではヒンディー語しか残らない。こんな状態で、本当に印欧祖語が有していたと言えるのか。クルガン仮説について妄想を語って許されるのか。

330 番よりも、最後に脱落した 554 番の方が印欧祖語話者に由来する可能性が高そうに見える。実際、Table S5 を見ると、印欧祖語 (PIE) の保有確率は 330 番が 0.54 に対して、554 番は 0.61。554 番はインド系 (Hindi, Urdu, Romani)、イラン系 (Iranian, Tadzik, Kurdish, Ossetic)、Greek、Armenian が持っている。330 との違いは、ヨーロッパ系の歯抜けが 8 言語と少し多いこと。おそらくこの影響で、ヨーロッパ祖語の保有確率が低く推定され、同時に遷移行列のパラメータが大きく (変化しやすいように) 推定され、印欧祖語の保有仮説が Bayes factor が弱くなったのだろう。近現代社会において目当ての民話が採取できたかはかなり偶発的な要因に左右されていそうだが、今回の推定はその偶発的要因の影響を強く受けているっぽい。専門家の意見を聞きたいところ。

さらに言えば、autologistic analysis が怪しい。ギリシア語が、印欧語族中で早期に分岐した (ことになっている) ために、印欧祖語の状態推定に強い影響力を持つことは既に言ったが、それだけでなく、ギリシア語自体が他の言語に対して水平の強い影響力を持っていたことは明らか。ヨーロッパはもちろん、インド・イラン系についても、バクトリアやインド・グリーク朝の影響が考えられる。言語は対等ではなく、影響力の強いものと弱いものがある。しかし、autologistic analysis では言語は対等で、影響力の区別はない。autologistic analysis が提案されたときの適用先は Western North American Indian で、多数の小集団が共存する地域だったから、このモデルでも大きな問題はなかったのだろう。しかし印欧系はそうはいかない。方言周圏論もそうだが、水平伝播を考えるなら、影響力の大小をモデルに組み込む必要があるだろう。その数値データをどこから持ってくるかが難しいのだけど。

*1:しかし、なぜか 4 月 22 日付けで Science の記事が出ている。今月になって Mark Pagel が Current Biology に follow-up を書いたから認知されたらしい。

*2:ただ、最近は別のやり方も考えている。言語データは DNA とくらべて貧弱すぎて系統推定にも限界がある。DNA で系統樹 (というか有向非循環グラフ (DAG) ) を作っておいて、DAG 上を言語が伝播するような推定をやっても良い気がする。

2015-11-13

Creoles are typologically distinct from non-creoles

言語

クレオールの類型論的性格について、非クレオールから弁別的*1だと主張する一連の論文群。表題に採用したのは 2011 年のジャーナル論文。

Peter Bakker, Aymeric Daval-Markussen, Mikael Parkvall and Ingo Plag. Creoles are typologically distinct from non-creoles. Journal of Pidgin and Creole Languages. 26(1). 2011.

翌 2012 年の EACL の workshop*2で発表された論文の方が論点が整理されている。

Aymeric Daval-Markussen and Peter Bakker. Explorations in creole research with phylogenetic tools. EACL 2012 Joint Workshop of LINGVIS & UNCLH. (attachment).

著者の 1 人が 2014 年に発表した 2 編の guest column によって、何だか論争になっているらしいことと、著者が従来の立場を維持していることがわかる。

Peter Bakker. Creolistics: Back to square one?. Journal of Pidgin and Creole Languages. 29 (1). 2014.
Peter Bakker. Creoles and typology: Problems of sampling and definition. Journal of Pidgin and Creole Languages. 29 (2). 2014.

別の著者が 2013 年に出した論文もあるが、所属機関からは無料で閲覧できなかった。abstract、supplemental content と上記の guest column に引用された部分しか見ていない。

Aymeric Daval-Markussen. First steps towards a typological profile of creoles. Acta Linguistica Hafniensia. 45 (2). 2013.

彼らの基本方針はデータベースを用いた定量的分析。これ自体は良い。しかし、具体的に採用している手法が変。そこでまず彼らの手法を見て、それから別の手法を考えてみる。

解きたい問題

知りたいのはクレオールの類型論的特徴がどこから来たか。2012 年の論文によると、4 通りの立場が考えられる:

superstrate (lexifier)
substrate(s)
feature pool (only superstrate and substrates)
restructuring universals

最初の 2 つは、それぞれ superstrate = 上層言語 (lexifier = 語彙提供言語)、substrate = 基層言語に由来するという立場。これはない。そもそもクレオールが興味深いのは、語彙の大半が lexifier (superstate) に由来するのに、文法的には lexifier とは大きく異なること。さらに言えば、substrate とも異なる。そもそも superstrate や substrate と大差ないのであれば、クレオールという区分自体が不要だったはず。

feature pool は superstrate と substrate の特徴量が pool されていて、そこから適当に値を選択していくという説明。この説を否定するには、いずれにも存在しない特徴量の値がクレオールにあればよい。そして、実際にあるらしい。

最後の restructuring universal は、クレオールの形成過程を retension (lexifier, substrates), loss (pidginization), reconstruction (grammaticalization, creolization) からなると考える。ピジン化の過程で失われた特徴をクレオール化の過程で作り直すのだが、ここに何らかの普遍性が存在すると考える。著者らはこの立場。私もたぶんそうだろうと思っている。

著者らの主張で飛躍だと思うのは、表題にも採用した creoles are typologically distinct from non-creoles というもの。単に restructuring universals の示しただけでは、この主張の裏付けにはならない。restructuring の結果、lexifier とも substrate とも異なる特徴を獲得したとしても、それが非クレオールの中でもありふれたものである可能性が排除できていない。

NeighborNet

著者らは一貫して分析手法として NeighborNet を使う。いわく、tree ではなく、network だからクレオールの分析に適していると。たしかに NeighborNet は、tree としては conflict を起こす部分を網状に可視化する。しかし bottom-up clustering であり、基本的には木を作ろうとしている。superstratist と substratist は木に基づくとみなせる。だから、NeighborNet の結果が彼らにとって不都合であることを示せば良い。でも、feature pool と universalist はそもそも木に基づかない。NeighborNet を作ったところで、何の意味があるのかわからない。

とりあえず結果を見ていく。まずは superstratist の検証から。クレオール群と lexifier 群を入力として NeighborNet を作る。その結果、クレオールはクレオール同士で、lexifier は lexifier 同士で別々にクラスタが形成された。superstratist の立場からすると、クレオールは対応する lexifier とクラスタを形成するはず。よって supserstratist は支持されない。

同様にして、substratist の検証は、クレオール群と substrate 群による NeighborNet で検証される。するとやはりクレオールと substrate が別々にまとまり、両者が分離できる。ただし、クレオールと非クレオールの境界に近い言語が存在する。おそらく、文法的側面では substrate がクレオール形成に与えた影響は superstrate よりも強いのだろう。

feature pool の検証は、lexifier, substrate、クレオールの 3 種類を入れた NeighborNet による。すると lexifier と substrate がクラスタを形成し、クレオールと対立した。しかしこの方法は直接的ではない。feature pool 説に従うなら、クレオールは対応する lexifier と substrate の間に位置しなければならない。これを検証するなら、それらの 3+ 言語だけを比較すれば良い。複数のクレオールを分析に突っ込み、クレオール同士でクラスタを作った結果、クラスタの重心が、lexifier と substrate の中間から離れていったため、結果として lexifier と substrate がクラスタを作ったというシナリオも考えられる。

universalist の検証には、さらに lexifier でも substrate でもない言語を追加している。その結果、やはりクレオールだけでクラスタができた。著者らは、この結果をもって、クレオールが非クレオールから弁別的であると主張する。この論理展開が謎。restructuring universals が支持されるかを検証するはずだったのに、いつのまにか creole distinctiveness の議論にすり替わっている。それに、わずか 52 言語のネットワークでは、世界の言語類型を網羅していないのではないかという疑いが拭えない。

分類器

restructuring universals については一旦忘れて、先に弁別性の問題を片付ける。クレオールは非クレオールから弁別的か。この問題に直接取り組むには、2 値分類器を作れば良い。各言語の特徴量列を入力とし、クレオールなら 1、非クレオールなら -1 を返すような分類器。もし高精度な分類器が作れたなら、弁別性は支持される。もし失敗した場合は、2通りの解釈が考えられる。(1) 分類器の作り方が悪かった。(2) クレオールと非クレオールは弁別的ではない。

普通に言語処理をやっていたら分類器を作ることを思いつくはず。著者らが何年もの間ひたすら NeighborNet に固執しているのが謎。一から十までソフトウェア化されているモデルしか使わない方針なんだろうか。生物系の研究を見ると、この分野には分業体制があるみたい。ごく一部の頭の良い人達がモデルを作ってソフトウェア化し、残りの人はそのソフトウェアを使ってデータ作成と分析だけをやっている。統計的な言語研究もそんな感じになるのだろうか。

話が脱線したが、言うだけでな何なので実際にやってみた。使用データは Atlas of Pidgin and Creole Language Structures (APiCS) と World Atlas of Language Structures (WALS)。

APiCS の特徴量の一部には WALS への mapping が記述してある。その 47 種類の特徴量を使う。言語数は 77。ピジンを含む contact language を広く収録している。この点は問題かもしれない。しかし、APiCS はピジンとかクレオールといった分類を明示的に付与していない。とりあえず全部使う。

WALS 側では Pidgins and Creoles に分類されている言語を除外する。さらに欠損値の比較的少ないもの 541 言語を残す。APiCS と WALS のデータを結合し、欠損値は multiple correspondence analysis (MCA) で適当に補完。

分類器は線形 SVM。sklearn.svm.LinearSVC を使ったので、内部的に LIBLINEAR を呼んでいるはず。パラメータは適当に grid search。5 分割交差確認で精度を測定。

結果。accuracy は全部非クレオール (NC) に分類すると 87.5% なのに対して、SVM は 94.2%。クレオールに着目すると、再現率 79.7%、適合率 71.4%、F1 が 75.3%。混同行列を示す。

混同行列
		NC	C
		sys
ref	NC	527	14
ref	C	22	55

そういう訳で結構分類を間違えている。ここから先、カーネルトリックを使って非線形分類を頑張っても良いが、解釈が難しくなりそう。線形分離できないことをもって弁別的でないと結論づけても良さそうに思う。

2015 年 11 月 18 日追記: APiCS のピジンを除去して再実験してみた。ピジン排除の基準は、sociolinguistic feature ""Ongoing creolization of pidgins"" の値が "Not applicable (because the language is not a pidgin)" あるいは "Widespread" ではないもの。これで 13 言語が除去された。

混同行列 (ピジン除去版)
		NC	C
		sys
ref	NC	534	7
ref	C	10	54

ということで、精度 97.2%、再現率 88.5%、適合率 84.4%、F1 86.4% と少し分類精度が上がった。しかしあいかわらず間違いは残っている。

PCA

SVM の失敗事例を分析してもよいのだが、別の方法を試す。高次元データの性質を知りたいなら、とりあえず主成分分析 (PCA) してみれば良い。

PCA の結果を示す。まずは PC1-2。赤がクレオール (APiCS)、緑が非クレオール (WALS)。

PC2-3。

クレオールは世界の言語の中で偏った一群であることは確か。しかし、非クレオールとは分離されておらず、分布が重なっている。

点が多すぎて密集具合がわかりにくいのでカーネル密度推定を使って連続分布に変換してみる。

PC1-2 の非クレオールの分布。

PC1-2 のクレオールの分布。

PC2-3 の非クレオールの分布。

PC2-3 のクレオールの分布。

クレオールと非クレオールは異なる分布を持つが、両者が重なっていないとはとても言えない。

ラベルを見ると、PC1-2 においてクレオールの中心から外れている言語はピジンが目立つ。でも、Sri Lankan Malay、Korlai、Kikongo-Kituba、Lingala、Mixed Ma’a/Mbugu などは 309 Proportion of native speakers によるとそれなりに母語話者がいてクレオール化されている。

結論と今後の課題

結論としては、クレオールは非クレオールから弁別的とまでは言えない。条件をいろいろ変化させて、もう少し真面目に調べれば、ちょっとした成果にはなりそう。

今後だが、やはり一度脇においていた restructuring universals が気になる。restructuring universals について著者らは何も示せていない。feature pool のモデルと、さらに restructuring universals を考慮するモデルを作って、後者の方がクレオールのデータをより自然に説明できると実験的に示せば良い。しかし、著者らは他人が作ったソフトウェアに頼りっきりなので、手が出せないのだろう。データが充実しつつあるのに、分析できる人がまだいないのは狙い目。

Bakker の guest column を読むと、台湾の Yilan Creole Japanese (宜蘭クレオール) がクレオールでありながら、クレオールの典型から外れていて面白そう。私がこの言語を知ったのは 2008 年 8 月、以下の報告から。

安部清哉, 土田滋 and 新居田純野. アタヤル語(泰雅語)の寒渓方言に入った日本語. 東洋文化研究. 10. 2008.

簡単な報告で、語彙の分析が少しあるだけ。

今調べてみると別の報告が出ている。

真田信治 and 簡月真. 宜蘭クレオール. 国語研プロジェクトレビュー. 3 (1). 2012.

クレオールは一般に SVO 語順を持つと言われるが、宜蘭クレオールは日本語のような SOV が基本とのこと。格標示の後置詞が使われるのも非典型的。

いまのところ宜蘭クレオールは APiCS には収録されていない。もっと本格的な報告が出たら登録できるかもしれない。

2016年11月12日追記: この記事の最後の方でうだうだ言っていた話もひっくるめて論文にした:

Yugo Murawaki. (2016). Statistical Modeling of Creole Genesis. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), pp. 1329-1339.

*1:distinctive をどう訳すか困る。ここでの意味は専門用語的ではないのだけど。

*2:workshop ということで格は落ちる。でも、こんな風に言語処理業界で発表してもらえると、私も研究しやすくなる。

murawaki の雑記

はてなグループから移転してきました

「語」とはなにか・再考

UD の重要性

語の認定

短単位は語ではない

語認定問題の先行研究

宮岡 (2015) の貢献

落穂拾い

日本語「形成」論

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

危機言語本の粗雑さ

研究史 (1): ISO 639-3 言語コードとその出典

研究史 (2): Uemura (2003)[1992]

研究史 (3): Glottolog と Pellard (2009)

言語研究と保存運動の乖離

おわりに

Hmong-Mien Langage History

ニューラル機械翻訳と記号幻想の死

教師あり学習としての機械翻訳

現状の確認

記号操作の排除

記号の連続空間表現

要素還元主義のおわり

文法よいずこへ

再帰性は実は難しくない

さらなる暴力の連鎖

おわりに

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

Creoles are typologically distinct from non-creoles

解きたい問題

NeighborNet

分類器

PCA

結論と今後の課題