2015-03-05

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

言語

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).

ここしばらく連続して雑記に言語ネタを投下してきた。たぶんこれで最後。

内容は表題の通り。インド・ヨーロッパ (印欧) 語族の祖語の年代を推定。結果は、印欧祖語の故地に関する 2 大仮説、アナトリア説とクルガン (steppe) 説のうち、クルガン説を支持。これは、アナトリア説を支持する Mapping the Origins and Expansion of the Indo-European Language Family を含む Gray & Atkinson 系の研究への反論になっている。

forthcoming articles として案内されているのには気付いていた。いつのまにか preprint が公開されていた。

著者は 4 人とも Berkeley 所属。第1著者、第2著者、第4著者は言語学の人。第3著者は Dan Klein の NLP グループの人で、音変化の統計モデル (Bouchard-Côté et al. PNAS 2013) にも関わっていた。この種の論文にはだいたい生物進化系の人が入っているものだが、今回はいない。

一つの論文に言語学と統計モデルのガチな議論が同居している。ヴェーダ語 (いわゆるサンスクリットだが、仏典のそれよりも前の段階) からロマ語にかけての語の意味変化の議論と、不等式の証明に同時にお目にかかることはまずない。しかも第1著者(?) が自分で BEAST (系統推定のソフト) を改造している。BEAST はモジュール化されているとはいえ、お化けみたいなプログラム。生物系で提案されたモデルを片っ端から実装しているから。言語学が本職の人間がいじるなんて信じがたい。

計算モデルを使う Gray & Atkinson 系の研究を批判する言語系の人はいままでもいたけど、はるか遠くから石を投げていた。それでは当たらない。Chang et al. は射程距離まで近づいてマサカリを投げている。これは直撃して死ぬ。

Chang et al. は地理位置は扱わず、年代だけを議論している。印欧祖語の年代は、アナトリア説だと 9500-8000 BP (before present, 現代からN年前)、クルガン説だと 6500-5500 BP。Gray & Atkinson 系の研究はアナトリア説を支持していた。仮にクルガン説が正しいとすると、モデルが祖語の年代を実際よりも古く見積もり過ぎということになる。Chang et al. は、何が原因でそうなったかをデータとモデルの特性にそくして議論している。

モデルの動作のおさらい

年代付きの系統樹を作る。モデルの仮定するところでは、祖語から分岐を繰り返して現代語にいたる。推論はこの逆を行う。現代から過去に向かって言語群を合流させていき、最後の 1 個になったらそれが印欧祖語。*1各言語は、語を持っている (1) か持っていないか (0) に従い 010001... のようなバイナリ列で表現される。2 つの言語 A, B を共通祖語 P に合流させるには、語の誕生 (0→1)、死亡 (1→0) が P → A, P → B で起きたと考え、A, B 間の差を吸収しないといけない。この誕生、死亡が時間に対してどの程度の確率で起きるかを制御する遷移率パラメータをモデルが持っている。

枝の長さ、つまり分岐してからの時間が長いほど、多くの変化が起きやすい。反対に、多くの変化が起きているなら、それに応じて枝をのばした方が自然な解釈になる。

遷移率の値はモデルがデータから推定する。そのために必要なのが calibration (較正)。系統樹の途中の地点が絶対年代でどのぐらいなのかをモデルに与える。例えば、(英語やドイツ語などの共通祖先である) 西ゲルマン祖語の年代は 1550 BP あたりだと指定する。そうすると、このソフトな制約を満たすような良い感じの遷移率をモデルが推定する。要は、言語がどれぐらいの速度で変化するかが学習される。それをさらに過去に延長していくと印欧祖語にたどり着く。

calibration は印欧語族の場合少し特殊。世界のたいていの語族では現代語のデータしか手に入らないが、印欧語族は資料に恵まれている。古英語、ラテン語、ヴェーダ語、ヒッタイト語のような古代語のデータが (不完全だとしても) 得られる。そこで、例えば、古英語のデータを追加するとともに、その年代をおよそ 1000 BP と指定する。より印欧祖語に近い古いデータを追加するほど、変化速度や祖語の状態の推定が確実になると期待して。

この古代語の扱いが、やや直観に反するところでもある。従来手法では、古代語を系統樹の葉ノードにする。ヒッタイト語のように滅んだ言語ならともかく、古英語は子孫として (現代) 英語を持っている。それでも葉ノード扱いする。普通に系統推定を行うと、英語は古英語と最初に合流するので、英語・古英語共通祖語というべきノードが作られる。

後で見るように、Chang et al. はこの部分をいじっている。従来のように古英語を英語の兄弟扱いするのではなく、英語の直接の過去の状態として扱う。表題の ancestry-constrained phylogenetic analysis はこの改造を指す。

Gray & Atkinson 系の研究の何が問題だったのか

Chang et al. の議論は多岐にわたるが、一番重要なものだけ紹介。まずデータの特性を取り上げる。次にそれをモデルがどう解釈するかを見る。

データの中で問題となるのは homoplasy, drift, precursor, advergence といった用語で説明される現象。この現象自体は以前から知られていた。私も自分の以前の発表でこの現象の存在には触れたが、ひとまず例外として無視できると思っていた。ところが Chang et al. は無視できないことを示している。

そもそも言語ノードの表現、010001... のようなバイナリ列をどうやって作ったか。まず、ある概念を表す語を言語ごとに集める。次に言語同士を比較して、語源が共通する語をまとめる。209-210ページの例を使うと、leg という概念を表す語は、ヴェーダ語で jáṅghā、ベンガル語で pā、マラーティー語で pāy、ギリシア語で pódi、ペルシア語で pā。これらは語源的に2つにまとめられ、ヴェーダ語以外は共通する。そうすると、pā 系の語に関して、各言語はそれぞれ 0、1、1、1、1 と表される。

しかしここに罠がある。実はベンガル語の pā に対応するサンスクリット形 pád が存在し、印欧祖語 *pod- にさかのぼる。しかし pád は leg ではなく foot を意味する。実は、foot → leg の意味変化はありふれており、インド語派以外にもギリシア語やイラン語派で独立に起きている。このように、別々の起きた現象によって同じ (似た) 状態にいたることを homoplasy と呼んでいる。生物進化系の用語。

この現象をもう少し考える。homoplasy を起こすには、単に foot → leg の意味変化が系統樹の複数の箇所で起きるだけでは駄目。foot を表す語も共有していてはじめて homoplasy になる。これを precursor と呼んでいる。さらに、子孫たちと外側の言語で 1 がたっているのに、祖先の状態が 0 という現象を advergence と呼んでいる。

この現象が結構広範囲に観測できることを Chang et al. は示している。現代語のビット列のうち、7% の要素は homoplasy に該当するという。Swadesh 以来の議論で、基礎語彙は借用 (水平伝播) しにくいということになっていたが、homoplasy の方が借用よりも影響が大きいことになる。

homoplasy がモデルの推論にどのような影響があるか。まず、現実の遷移を確認しておく。(注: ここから先の例は私が自分で作っているので間違いがあるかも)*2 leg の pā 形の語の場合は以下の通り。本当は二分木だけど、簡単のために途中のノードを省略。

共通祖語(0) → ヴェーダ語 (0)
共通祖語 (0) → インド祖語 (0) → ベンガル語 (1)
共通祖語 (0) → インド祖語 (0) → マラーティー語 (1)
共通祖語 (0) → イラン祖語 (0) → ペルシア語語 (1)
共通祖語 (0) → ギリシア祖語 (0) → ギリシア語 (1)

つまり、ありこちで 0→1 の変化が起きている。しかし、一般に少ない変化で説明する方が、モデル的には自然。よって以下のような遷移を好む。

共通祖語 (1) → ヴェーダ語 (0)
共通祖語 (1) → インド祖語 (1) → ベンガル語 (1)
共通祖語 (1) → インド祖語 (1) → マラーティー語 (1)
共通祖語 (1) → イラン祖語 (1) → ペルシア語語 (1)
共通祖語 (1) → ギリシア祖語 (1) → ギリシア語 (1)

ここで仮に共通祖語と言ったが、これは何か。トカラ語とアナトリア語派が leg の意味で pā 形の語を持たないことを考えると、非ヒッタイト・非トカラ系の共通祖語だろう。だとすると、モデルはおそらく次のような変化を推定するだろう。

印欧祖語 (0) → 非ヒッタイト共通祖語 (0) → 非ヒッタイト・非トカラ共通祖語 (1)

場合によっては、印欧祖語 → 非ヒッタイト共通祖語までさかのぼらせるかもしれない。いずれにせよ、変化を実際よりも古い段階に持っていくことになる。

要するに、homoplasy は以下のバイアスを引き起こす。

変化率を実際より低く見積もる
変化を実際より古い段階に先送り(?)する

この2つはいずれも祖語の年代を古く推定する効果を持つ。

Ancestry constraints

そこで導入されるのが ancestry constraints。ヴェーダ語をベンガル語、マラーティー語の祖先とみなす。すると、強制的に以下の遷移が実現される。*3

共通祖語 (0?1?) → ヴェーダ語 (0) → ベンガル語 (1)
共通祖語 (0?1?) → ヴェーダ語 (0) → マラーティー語 (1)

そうすると、変化率が不当に低く推定される問題は解消される。変化も新しい段階で起きたことになる。よって制約を入れない場合にくらべて新しい祖語の年代が推定される。共通祖語の状態が正しく推定されるかはわからない。

Chang et al. は、他にもいろんな要因を考えている。式 (8)*4 の diagram がその一部をまとめている。結論としては、アナトリア説よりもクルガン説を支持する新しめの年代が推定される。

印欧語族は古代語の資料が豊富にあるからそれで良いだろうけど、他の語族ではどうしようもなさそう。

古代語データの扱い方

印欧祖語の故地の問題は、放っておいても他の人が議論してくれる。ここでは古代語データの扱い方を考える。他の言語への応用を意識して。

既に述べたように、従来手法では、古代語を系統樹の葉ノードにする。だから、英語と古英語の他に、英語・古英語共通祖語のノードを作らないといけない。

Chang et al. が問題にしたのは、共通祖語から古代語への枝がやたら長い場合があること。Bouckaert et al. (2012) の結果で見ると、極端なのが古アイルランド語。古アイルランド語、アイルランド語A、スコットランド・ゲール語の共通祖語から古アイルランド語への枝が 1,000 年近い長さ。この結果を素直に解釈すると、古アイルランド語と同時代に、相当程度分化した兄弟言語が存在し、それが生き延びて現代語になったということ。直感的にはそんなはずがない。Chang et al. はこの点を 3 節で議論している。主に資料が豊富なラテン語を例に。

モデルの振る舞いを見ると、古代語 → 現代語の遷移で起きたはずの変化が、(1) 現代語・古代語共通祖語 → 現代語、(2) 現代語・古代語共通祖語 ← 古代語という2つの枝に分割されている。この現象を jogging と呼んでいる。走る方のジョギングと同じ語だけど、急に折り曲がるといった意味。

jogging の存在自体には私も気付いていた。けれど、単にモデルが推定をミスっているのだろうという以上に掘り下げることはなかった。こうして鮮やかに説明されると、他の現象も説明できるのではないかという気になってくる。

jogging のような現象は他のデータでも起きている。以前紹介した日本語諸方言の場合も、上代語が他の本土方言と合流するまでに約 200 年の枝がのびている。歴史を考えると、京都、奈良あたりの直接的な祖先であって欲しいところだけど。

ただし、その原因は Chang et al. が議論したような homoplasy ではないだろう。同じ変化が独立に複数回起きたのではない。一度だけ発生した変化が、木の制約に反して、いわゆる水平伝播によって広まったという従来通りの見方で良いだろう。しかし、具体的にどういう仕組みでこうなったのか。いまのところ、うまく説明できる仮説を持ちあわせていない。基礎語彙の一致率で上代語と他の言語をソートすると、上位に中古語、東京、北海道、山梨、滋賀と並んで、関西諸方言が思ったよりも遠いという結果にヒントがありそう。

*1:実際にはこんな決定的な操作を行うわけではない。

*2:ここでは、最初の言語的説明の際に出てきた leg の例をモデルの説明にも使った。leg は影響が広範囲な場合だが、Chang et al. はモデルの説明の際にはもう少しミクロな振る舞いに着目している。

*3:一度死んだ語が復活していることになる。このような振る舞いは確率的 Dollo モデルでは扱えない。Dollo モデルでは、語の誕生が系統樹上で一度しか起きないから。

*4:式なのか?

2015-02-26

Rate of language evolution is affected by population size

言語

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.

言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss により測る。結果。gain 率は人口が大きいほど高く、逆に loss 率は小さいほど高い。gain/loss をあわせた変化率には人口との相関はなさそう。

私が念頭に置いているのは琉球諸方言とアイスランド語。琉球諸方言は短期間に変化しすぎで、かつ分化しすぎのように見える。*1 一方、同じ島でも、アイスランド語は冗談みたいに保守的。この現象をどう説明するか。

変化速度に影響を与えるのはどういう要因で、その結果速くなるのか遅くなるのか。これまでいろんな仮説が提起されてきた。しかし、仮説を集めてみると、てんでバラバラ。これは Bromham et al. が最初の段落でまとめている通り。なぜこんなことになっているのか。議論が定量的でなかったから。定量的でなかったのは、そのためのデータの確保が難しいから。Bromham et al. の貢献は、データのお膳立ての方法を考えて、とにかく定量的議論に持ち込んだこと。

Bromham et al. はオーストロネシア語族のポリネシア諸語を使う。ポリネシア諸語には良い条件がそろっている。まず島であること。人口や対応する面積などが求めやすい。地続きの場合にくらべて孤立している。さらに祖語の年代として考古学の知見が使える。有人化の歴史が比較的新しいから。最後に基礎語彙が Austronesian Basic Vocabulary Database *2 として整備されている。

手法。いつものように cognacy 判定により語彙をバイナリ化。語の誕生 (gain, 0→1)、死亡 (loss, 1→0) が遷移率パラメータによって確率的に決まるモデル。普通の系統推定問題だと、このパラメータ以外にも求めるべき隠れ状態がいっぱいある。系統樹のトポロジーとか祖語の年代とか祖語の状態とか。今回はそのあたりを全部観測状態にして、遷移率だけを求める。さらにその遷移率が線形回帰となっている。回帰のパラメータに人口が入っている。対応する重みが人口が影響度合い。「gain 率は人口が大きいほど高い」というのは、人口パラメータに対して正の重みが推定されたということ。

データのお膳立ての方法。Bromham et al. は sister-pairs approach と呼んでいる。まず木を扱わない。言語のペアだけを考える。しかも一番近い親戚同士のみを考える。おかげで他の言語が介入する余地がない。現代語のペア A, B とその共通祖語 P だけで完結する。祖語の年代は考古学的に与える。祖語の状態も確定させる。ここが少し tricky。まず A, B で状態が異なる場合のみに着目する。A が 0、B が 1 とする。ここで、A, B 以外の言語を調べる。もし該当単語を持つ言語があるなら、P が 1 で、A が lost したとみなす。なければ、P が 0、B が gain したとみなす。

祖語の状態の割り当てにはいろんな仮定がおかれている。まず、P から分岐したあとは、A, B は独立に変化したと考える。これ自体は系統モデル一般の仮定。水平伝播はモデルの仮定に反する。次に、ある語の誕生は系統樹上で一度しか起きない。この点で確率的 Dollo モデル風。しかし、Dollo モデルなら、死亡は系統樹上の複数の箇所で起きる。つまり、P が 1 で、A, B 両方で並行的に lost して 0 になることがあり得る。今回のモデルはこの場合を考慮していない。*3

一番重要な結果は既に述べた。結果の他の部分も少し見る。図 3 にデータの fitting の度合いが図示されている。見た感じ、それほど fit してなさそう。

モデルの variant をいろいろ試しているがパッとしない。人口動態を変化させても効かない。最初に入植した世代で語をいくつか強制的に lost させても効かない。この結果は意外。遺伝学用語でアレだが、founder effect 的なことはありえるのではないかと思っていた。*4 例えば、宮古や八重山に入植したのは小集団で、その人口の小ささゆえに初期に急激な変化が起きたのではないかと。今回の結果は、そうした仮説を特に支持しない。

さて、結果を疑ってみる。まず考えるのはデータ採取のバイアス。基礎語彙の調査票に従って、該当する意味を表す語を集めている。複数の語が該当する場合は複数採取。仮に小言語ほど保存状態が悪く、マイナーな語を採取し損ないやすいとする。その場合、話者が少ないほど loss 率が高いのは、データ採取の失敗で説明できるかもしれない。

次。得られた知見が仮に正しいとして、どこまで一般化できるか。ポリネシア諸語以外にもあてはまるか。具体的には 2 点。1 点目は、印欧語族のような普通の地続きの言語にも当てはまるか。2 点目はマクロな動態であり、ミクロな場合に当てはまるか。ポリネシア諸語の場合、距離にして数千キロ、時間にして 300 から 1,000 年。*5時間的には琉球諸方言とも比較できそうだが、距離が全然違う。系統樹を仮定するので水平伝播が多いとまずい。しかし、中本正智に著作を読むと、琉球諸方言の語彙はかなりの程度方言周圏論的な語彙拡散で説明できそうである。本土→首里・那覇→八重山といった流れが、系統上の分岐以降に頻繁に起きていた場合、モデルの仮定が成り立たない。

一番の疑問は、人口の扱い方がこれで良いか。言語を離散的に認定して、その言語の話者を数えれば良いのだろうか。うまく説明できないが、現状では、言語の認定の恣意性が効いていそう。同じ話者数だったとしても、内部で均一な場合と、分化しつつあるが別言語と認定するほどではない場合は違うのではないか。集団内の動態、個々の話者が接触する人口、例えば、通婚圏とかが効きそう。琉球諸方言とアイスランド語の違いは、そうしたところに求められそうな気がする。しかし、そうしたことを言い出すと、データがないという最初の問題に舞い戻る。

*1:適当に言っているだけでなく、そろそろ真面目に検証しないといけない。

*2:著者の Greenhill がこれの中の人

*3:ついでに言えば、P から A の間に、誕生と死亡が両方起きて、ノード上では観測できない語の存在も無視している。

*4:しかし、このアナロジーは微妙。founder effect で遺伝子の多様性が失われるのは、遺伝子の変異が集団の中で分散して保持されているから。集団から小さなサンプルを取り出すと、漏れたり、頻度が偏ったりする。しかし、語彙、特に基礎語彙は個々人が一揃い保持している。人間をサンプルしても、それだけでは語彙の多様性は失われないはず。Atkinson による phoneme の serial founder effect 仮説が直感的にあり得ないのも同じ理由。

*5:サモアだけ例外的に 3,000 年。

2015-02-20

Evolved structure of language shows lineage-specific trends in word-order universals

言語

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).

類型論の特徴量がどのように時間変化するかに最近取り組んでいたが、この先行研究を見逃していた。Dunn et al. は類型論の特徴量の中でも語順だけを扱っている。特徴量間に依存関係がある (例えば、語順が VO 型なら前置詞を使う) ことが指摘されている。疑問は、これが本当に普遍的に成り立つか。Dunn et al. の主張は、こうした依存は普遍的ではないというもの。要するに Greenberg と Chomsky に挑戦している。

類型論の従来手法は、世界中の言語からサンプルを取って調べる。実験統制という点でやや雑。言語同士が系統的に、あるいは地域的に関連している可能性がある。何らかの普遍性によって共通するのではなく、別の要因が効いている可能性を排除できているか怪しい。

Dunn et al. は全然違うやり方。語族内の変化を考える。つまり与えられた系統に沿った時間変化をモデル化する。例によって、遷移率行列を用意する。特徴量はバイナリだとすると 2x2 の行列。これに時間をかけて、exponential の肩にのせると連続時間マルコフ連鎖のできあがり。

調べる特徴量は 8 個だけ。しかも一度に 2 個の特徴量しか考えない。モデルは 2 種類。独立モデルと依存モデル。モデル同士を Bayes factor で比較して、依存モデルが充分に勝っていれば特徴量間に依存があると解釈。

独立モデルは特徴量 A と特徴量 B を別々に用意する。2x2 の遷移率行列も 2 個。

依存モデルは遷移率行列を 1 個しか用意しない。その代わり AxB の状態空間を考える。バイナリ特徴量の組だと 2x2=4 の状態。遷移率行列は 4x4。ただし、00 → 11, 01 → 10 みたいに 1 度に両方の特徴量を変化させるのは許さない。よって 4x4=16 セルのうち、4 セルは 0。パラメータに制約を加えれば、依存モデルは独立モデルになる。

原理的には 3 個以上の特徴量を考えられないわけではない。しかし組み合わせ爆発を起こすから現実的でない。

結果。Austronesian, Bantu, Indo-European, Uto-Aztecan の 4 つの木に対して別々に推論を行った結果、発見された依存が語族によってばらばらだった。だから、linguistic universals なんて嘘っぱちだと主張。

しかし、この結果は当然ではないか。4K から 9K 年ぐらいの語族の時間幅にくらべて、特徴量の変化が珍しすぎる。図 1 を見ても予想がつくが、語順はそう何度も変化するわけでない。デフォルトで 0 回。1 回、多くても 2 回ぐらいが限度。Bantu なんて、語族内ですべての言語が同じ値をとる特徴量があるせいで、一部の特徴量の組しか扱えていない。たまたま変化が多めに観測できた語族では依存が確認でき、そうでなかったら確認できなかったというだけではないか。

語族ごとに遷移率行列をわけるのではなく、パラメータを共有させてみたい。そうすれば低頻度性の問題は緩和できそう。分析に使った BayesTraits が別グループのツールだから自由に拡張できないのだろうか。もしそういうつまらない問題が原因でやっていないのだったら嫌だな。

追記: Croft et al. Greenbergian universals, diachrony, and statistical analyses. Linguistic Typology 15 (2011) で既に批判されていた。低頻度問題は 4.3 節で議論されている。4.5 節の議論は、語族間でパラメータを共有させるという私の提案と似ている。survey が全然足りてない。

追記: Linguistic Typology の同じ号に他にも反論が載っている。1st author ではないけど Hal Daumé III の名前もあった。

2015年9月15日追記: Dunn らの再反論 (筆頭著者が Levinson に代わっているが) も面白い。突っ込みどころ満載だけど。

2015-02-19

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

言語

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.

音変化を統計的に扱う話。面白い結果が報告されているが半信半疑。音変化でも祖語の年代推定ができるとか、規則的な音変化の発生数は Poisson 分布に従うとか。

音変化の統計モデルに関しては、Bouchard-Côté et al. (2013) を取り上げたことがある。*1Bouchard-Côté et al. との違いは大きく2つ。木自体も推定し、さらに祖語の年代を推定している。Bouchard-Côté et al. は祖語の語形を正しく復元することに注力していた。Hruschka et al. のモデルも語形の推定は行っているはず (後述)。でも、論文では個々の語形は無視して、集約結果だけを議論している。

語形をそのまま扱うには、文字単位で alignment を行わないといけない。Bouchard-Côté et al. は語形の推定と文字 alignment を同時に行っていた。Hruschka et al. は最初に alignment を決めてしまう。timestamp 付きの木を推定する際には固定。そうすると、各文字は speech sound の 62 個の候補のいずれかの値をとる変数とみなせる。同源語の有無だと 0/1 の 2 種類、DNA の ACGT だと 4 種類だったのが、今回は 62 種類。DNA に対して 4x4 の遷移率行列を作るように、speech sound の 62x62 のお化けみたいな遷移率行列を作っている。データ量に対して推定すべきパラメータが多すぎるのではないかと思うところ。でも、モデルを工夫すればうまくパラメータを減らせるとのこと (該当論文はあとでちゃんと読む)。

しかし、実際のところ何やっているかいまひとつわからない。そもそも読みにくい。生物系の論文構成は滅ぼすべき因習に見える。言語処理の論文の書き方に慣れた人間からすると。Introduction は良いとして、Results が Experimental Procedures に先行する。さらに別に Supplemental Experimental Procedures がある。処理手順の記述が分散してしまって追いにくい。

語形の文字単位での alignment。言語が複数あるので multiple sequence alignment ということになる。これは全然 trivial ではない。なのに Experimental Procedures の Description of Transcribed Sound Data は短すぎる。必要な情報が載っていない。reference もないのでお手上げ。*2とりあえず疑問を並べてみる。

疑問 1。音変化がまるで文字単位の置換であるかのような素朴な story が提示されているが、そんなはずはない。InDel (挿入と削除) をモデルに組み込まないと説明できない語形だらけのはず。私の推測では、最初に alignment を行った時点で 1 対 1 対応がとれない部分は捨てている。仮にそうだとすると、祖語の語形はまもとには推定されていないことになる。h → φ みたいなよくある変化を無視するのはさすがにまずい気がする。

疑問 2。cognate set (論文では etymological class とよばれている) にすべての言語の語形が入っているわけではない。進化の途中で語が失われると、子孫はその語を持たない。存在しない語をどう処理しているのかわからない。推測では、ghost word を作ってしまっている。

疑問 3。この記述が謎。

The algorithm recursively estimates the alignments, sound inventories, regular sound changes, and sporadic sound changes that maximize the likelihood function derived from this model. This yielded a 26 languages x 1,120 sites matrix.

recursive に推定ってどういうこと? なぜ alignment だけでなく sound change も推定できているのか。なのになぜ出てくるのが現代語だけの行列なのか。私の推測では、multiple sequence alignment をやるのに、距離ベースのクラスタリングとか、その手の簡易的な方法で木を作っている。そうしてできあがった木を系統推定の初期値に使っているのではないか。これはあくまで憶測で、本当のところは著者に聞いてみないとわからない。査読者は何をやってたんだろうか。もしかして生物系の人には自明なんだろうか? 少なくともこんな記述では私には再現実験ができない。

規則的な音変化の話に戻る。モデル化が独特。普通に 62x62 の遷移率行列 $Q_s$ を作ったら、各文字 token に対してそれぞれ置換確率を考えることになる。これを sporadic sound change と論文は呼んでいる。regular sound change は各文字 type に対して働きかけるもの。そのために、特殊な遷移率行列 $Q_r$ を用意する。まず単位行列を用意する。対角成分だけに 1 が立っているので、一切変化しない。次に、音変化に対応する対角要素を 0 にして、代わりに別の要素を 1 にする。すると強制的に置換が行われる。こういう特殊なことをされると、半可通はすぐに不安になる。これって time-reversible なんだっけ? Kolmogorov に立ち戻って確認しないといけない。

$Q_s$ は全体で一個だけ。 $Q_r$ は各枝ごとに一般に複数個用意する。変化が起きた時刻 t も推定する。ある枝で k 回規則的な音変化が起きた場合、k 個の $Q_r$ が使われる。音変化の順序関係をモデルが考慮していることになる。

結果。規則的な音変化をモデルに組み込んだほうが、そうでない場合よりよい系統樹が得られたと主張。見れば確かにそれっぽいが、定量的評価はない。言語学者が作った系統樹があれば、(それが二分木でなかったとしても) 定量的に評価する手法はあるのだけど。図 3 の読み方はわからない。図 4 あたりの主張するところでは、62 個の音を独立に扱っているけど、ちゃんと自然な音変化が浮かび上がってきた。有声化とか。

一番の驚きは年代推定がそれなりにできていること。sporadic change だけのモデルは祖語を古く見積もりすぎるが、sporadic change + regular change だと他の証拠と整合する。calibration に使っているのは 1 点だけ。このデータセットでたまたまうまくいっただけではないかという疑念が拭いきれない。複数のデータセットで検証してほしい。

しかし、モデルを見ると、年代推定に使われているのは sporadic change の $Q_s$ 。regular change の $Q_r$ は、天変地異のように、ある時刻に決定的に作用する。時間に関わる要素ではない。直感的に言うと、規則的変化で説明できない変化の割合が枝の長さに対応しているということ。規則的な音変化では、系統推定も年代推定も難しいだろうという見通しを私は持っていた。ところが、Hruschka et al. は規則的ではない部分を使ってきた。盲点である。しかし、それで良いんだろうか。少なくとも、言語学の議論でこんなのを見たことがない。

もう一つ、面白いのは、規則的な音変化が普通の確率的事象だという主張。時間に対して一定割合で発生する。だから一定時間内に発生する事象の数は Poisson 分布に従う。人間の活動は結構非 Poisson 的ではないかという議論が昔からあるけど、規則的な音変化は Poisson 分布でうまく説明できている。直感的には、great vowel shift みたいな玉突きが burst を起こして非 Poisson 的になりそうだが。これも他のデータセットによる検証を望む。

考えてみると、そもそも規則的な音変化の発生時刻を特定するための手がかりはとぼしい。単にモデルが発生時刻を確率的に散らせた結果として Poisson 的になっているのではないか。言い換えると、仮に規則的な音変化が burst を起こしていたとしても、モデルがそれを正しく推定できないのではないか。burst を起こす人工データを生成して検証した方が良さそう。

最後にデータセットについて。テュルク諸語 26 言語。出典は Sergei Starostin の An Etymological Dictionary of Altaic Languages。*3この辞書は Vovin が批判しまくっているということで敬遠してきた。批判はアルタイ仮説の立証に集中している。テュルク諸語に閉じた部分の業界的な評価を知りたい。

*1:Hruschka et al. は Bouchard-Côté et al. (2013) を 1 つの段落で 2 回引用しているだけ。関連性の割に扱いが悪い。

*2:別の箇所にさらっと the alignment permits metathesis とか書いてある。本当に何をやっているんだ?

*3:著者のうち 4 人が所属している Santa Fe Institute をどこかで見たことがあると思ったら、Starostin 系の研究に絡んでいるのだった。

2015-02-13

対人行動の普遍性と個別性

ネタ

かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であっても、育てる環境によって異なる行動規範を持つにいたる。人間はどうやって適応しているのか。

とりあえず検討すべき問題を書いてみたものの引っかかる。「行動規範」という用語がいまひとつ。人間が少数の規則を演繹的に適用して行動しているように聞こえる。そうとは限らないし、おそらくそうではないだろう。中で何が起きているかによらない用語が必要。人間に事例を与え続けたら、未知の事例に対しても適切に行動できるようになるという現象だけを指したい。ひとまず代わりに「行動能力」と呼ぶことにする。私の見方は完全に言語からの類推だが、世の中には対人行動を直接研究している心理学の人がいるはず。今回はそういう研究を調べずに、思いつきを書き散らす。

なぜこの問題を考えるか。ひとつには、自分の行動能力がいまひとつだと認識しているから。対人行動が表層的な事例ベースになっていて、あまり汎化できてないような気がする。だから例外に対処できない。あらかじめ事例をためていない場合は大抵失敗する。そして、それがわかっているから、新しい対人行動には慎重になる。行動しないという行動が無色なら良い、色のついた行動からの選択を迫られるとつらい。

彼の議論だと、ここから一直線に生得的能力の欠落に持っていく。私はそこは疑問に思っている。幼児を観察していると生得性に注目するのは無理もない。だが、私にとっては、既に大人になってしまった自分の問題である。

疑問に思う理由が、冒頭で述べた異文化の存在。異文化に属す人間の行動はすぐには理解できないものだし、だから文化人類学なんて学問が存在する。日本で生まれ育ったら、ポトラッチをやるようにはならないけど、チヌークとして育ったらやるようになるのだろう。あたかもそれが当然のことのように。個別の行動や、そのもとになる行動能力にはそこまで普遍性はない。

そう考えると、生得的能力は2つに細分化できそう。一つは、身体に直接的に組み込まれた行動能力。もう一つは、事例を受け取って自然に汎化する能力。前者ばかりでなく、後者に問題がある可能性も考えてみた方が良いのではないか。

30年程生きているけど、あいかわらず世の中は理解できない対人行動であふれている。そうしたとき、ポトラッチ、ポトラッチと2回唱え、とりあえず事例として記録しておく。ある程度事例がたまったら、それがどういう現象なのか分析できないかなと思いつつ。

2014-10-28

Wiktionary がうまくいってたまるか

ネタ

前回に引き続き、わからないという現状認識を書き残しておく。Wiktionary は失敗が約束されていると思ってきた。昔の記録を漁ると、2007 年には某所でそんな発言をしていた。しかし、2014 年現在、そこそこ何とかなってるっぽい。なぜだろうか。

そもそも現状を「そこそこ何とかなっている」と判断して良いのだろうか。そう思ったのは、自然言語処理で Wiktionary のデータを利用する研究を頻繁に目にするようになったから。Google Scholar で Wiktionary を検索すると 8K 件以上返ってくる。にわかに信じがたい。自然言語処理業界から見て、Wiktionary は使える資源になっているということだろう。自然言語処理での利用は、あくまで Wiktionary の現状の静的な評価。動的な、活動状態はどうだろうか。English Wiktionary の統計を見ると、記事の増加数は安定している。少なくとも減ってはいない。editor の数も安定している。*1 とりあえず、現状認識を訂正する必要はなさそう。

なぜ Wiktionary に興味を持ったか。正直言って、Wiktionary 自体がこの先どうなろうと知ったことではない。自分の研究に Wiktionary のデータを利用したいとも思わない。興味は辞書を作るという作業そのものにある。辞書作成に関して、Wiktionary から何らかの知見が得られるだろうか。

なぜうまくいかないと予想したのか。辞書は素人が簡単に作れるものではないと考えているから。人間は列挙が苦手。知っている語を列挙しろ、あるいはある語の語義を列挙しろと言われても網羅的にはできない。一旦生成されたテキストから抽出して集約するほかない。語釈文の作成も難しい。語の意味を別の語を使って説明するのは難しい。基本的な語、語義ほど難しい。この手の問題について editor を補助する仕組みを Wiktionary は持たない。おまけに翻訳と同じ問題、つまり作れる人があえて作る動機がとぼしいという問題がある。読み物としての魅力という点で、辞書は事典に劣るだろう。そんな状態でうまくいってたまるかと。

とりあえず先行研究を調べる。Iryna Gurevych という人のグループが Wiktionary をネタに大量の論文を書いている。ただし、自然言語処理のための資源として Wiktionary を評価したものばかり。つまり静的な評価。*2そんな中、Wiktionary: A new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography という 2012 年の論文はやや広い観点から分析している。著者らは a comprehensive description of Wiktionary とうたう。たいした自信だが、後半のデータの定量的な評価に加えて、前半で Wiktionary の仕様を説明しているだけ。私の疑問にはあまり答えてくれない。それでも得るものもなくはない。

一つは著作権が切れた資料の利用。Webster’s New International Dictionary of the English Language (1913) が出発点として重要な役割を果たしている。つまり、少なくとも英英辞典に関しては、基本的な語、語義の難しさという問題は回避されている。後半の分析を見ると、Wiktionary で追加されているのは、どうやら新語や専門系の語、語義のようである。ただし、繰り返すと、著者らは静的な状態の評価を WordNet との比較によって行っているだけ。どう変化してきたかは調査していない。そこが知りたい。

著者らはドイツ語版とロシア語版*3も調べているが、それらがどうなっているのかはわからない。ドイツ語やロシア語だって、free ではないかもしれないが、すでに充分な辞書資源がある言語。たとえ既存資源を複製しなかったとしても、Wiktionary がやることは車輪の再発明。私の疑問に答えるには、もっと資源のとぼしい言語の状態を調べた方が良い。

ネタ提供はしたので、誰か調べてくれないかな。

*1:それにしても、2011 年後半の記事の大量削除は何だったのだろうか。

*2:Wikipedia なら、動的な評価として、編集合戦を可視化した論文などがあるんだけど。

*3:ややこしいが、説明言語がドイツ語やロシア語ということ。説明の対象は多言語。

2014-10-15

翻訳する動機がわからない

ネタ

良い機会なので翻訳に関する疑問を書いてみる。*1そもそも翻訳を生業としない人間が翻訳する動機がわからない。*2動機がわからないからことには、翻訳に関する生態系の作り方もわからない。

自分で翻訳するのをやめて久しい。だが高校生の頃はやっていた。OSS コミュニティの片隅で。思い返してみる。なぜやめたのか。自分にとって必要なくなったからだ。

なぜそれまで必要だったのか。答えは低い英語力と記憶力の限界だと思う。わからない表現の頻度が一定割合を超えると、辞書を引かないことには文章が理解できない。辞書を引き出すと、文章の内容を記憶しておけなくなる。だから、内容を思い返せるように、途中までで理解した (つもりになっている) 断片を書き出す。それを最後までやると訳文ができあがる。当然質は極めて低い。

必要がなくなった理由はその反対。辞書を引きまくらなくても原文が理解できるようになった。*3そうなると、翻訳なんて手間のかかる作業は時間の無駄。使える時間は有限。読みたい文章は無尽蔵。

ついでなので、なぜ自分にとって必要がなくなったらやめたのかとも問うてみる。結局、私は自分のためにしか、(翻訳を含む) 文章を産出できない。需要にあわせて供給することができない。*4なぜ自分のためになるかというと、翻訳に関しては、上述の通り、記憶力の限界を補って文章を理解する助けになるから。一般の文章については、書き出すことで頭が整理できるから。できた文章は副産物とも言える。その副産物をあえて隠しておく必要もないので公開する。それだけ。

最初の問いを少し修正する必要があるかもしれない。質の高い訳文を作れる人間があえて翻訳する動機がわからない。反対に、(結果的に) 低品質の訳文を作る動機であれば、少なくとも 1 つのサンプルがここにある。しかし、これが他人に当てはまるかは自信がない。

仮に他人に当てはまるとする。低品質の訳文の供給があったとして、それを活用できるだろうか。活用できるとすると、高品質な訳文を生成できる人の作業の省力化だろう。そのためには、低品質の訳文を土台とすることで、1 から訳文を作成するより、あるいは翻訳メモリや機械翻訳を使うよりも省力化できなければならない。直感的には、そうでもない気がする。仮に省力化に使えるとしても、高品質な訳文を生成できる人の供給が 0 に近ければ、1.x を掛けても誤差だろう。

*1:良い機会というのは、かつて同じ時期に同じ研究室にいた人がいま翻訳ネタで話題になっていること。

*2:そもそも論を言い出したら、私にとって他人の価値観はわからないものである。他人が良いと評価するものが良いとは思えないし、自分が良いと思うものを他人は評価しない。なぜそうなってしまったのかわからないが、現状そうなっていることは認識している。

*3:質の良い訳文を作るには、原文を理解することが不可欠だが、それだけでは充分ではない。意味が理解できても、適切な訳文を思いつかないことは多々ある。

*4:ついでに言えば金銭も私を突き動かさない。そうでなければ大学に残るという愚かな選択はしなかっただろう。

murawaki の雑記

はてなグループから移転してきました