2019-05-26

昆虫とままごと

ネタ

いわゆる人工知能バブルはまだ続いているようで、大学や大学院*1の入試倍率は高いし、企業からの問い合わせも絶えない。その一方で、知性というものに対する世の中の認識と実態とのずれは解消される気配がない。計算機にとって何が簡単な問題で、何が難しいかは、人間の素朴な感覚と大きくずれている。例えば東大入試を解くなんてのは実は簡単な部類だが、世間では東大に合格するのは賢いと思われている。こうした世間の誤解に乗っかった危ういプロジェクト*2もあった。

昆虫とままごとは、最近私がたとえに使っているネタ。昆虫は下等生物の一例として取り上げているだけで、私が特に昆虫の神経系に詳しかったりするわけではない。言いたいことは、現在計算機で実現できている (あるいは近いうちに実現できそうな) 機能は昆虫のそれのように下等な仕組みだということ。ままごとは、特におままごとというと、幼稚な物事のたとえに使われる。だからこそ私は例に使っているのだが、しかし、私には圧倒的に高度な知性の産物に思えるし、実際ままごとができるロボットを作れる目処は立っていないはず。

昆虫的なシステムの例は機械翻訳。ニューラルネットの導入とともに急激に品質が向上したことで知られている。*3質の面で機械翻訳が人間の翻訳者にかなわないとしても、圧倒的なコストの差を背景に、社会が機械翻訳を前提として作り変えられるのではないかと真面目に議論されている。

では、その翻訳器は何をやっているのだろうか? 翻訳器は、原言語の文を入力として受け取り、目的言語の文を出力するというわかりやすいインターフェースを持っている。中身はどうなっているかというと、適当なニューラルネットのユニットを適当に組み合わせてある。その組み合わせ方にはいろいろあるが、そんなことはここではどうでも良い。ともかく、適当な入力刺激を受け取ると、適当な信号がネットワークを流れていって、適当な反応を示す。条件反射的で、熟慮も何もあったものではない。条件反射というと犬を思い浮かべるが、下等さを強調するために私は昆虫を持ち出すことにしている。もっとよい比較対象があるかもしれないけど。

実用的な機械翻訳システムを訓練するには、原言語と目的言語の文の対が大量に必要になる。その数は数百万から数千万。もっと少量のデータをうまく汎化できないのかと思わなくもないが、ともかく、大量のデータで殴りつけると、そんな原始的な仕組みでもだいたい学習できてしまうのである。これは何を意味するのだろうか? 計算機による実現可能性という観点で知性の高度さを捉えなおすと、人間の翻訳者の作業の大部分は、実は知的でも何でもなかったことになる。このように一見知的だが実は知的でない仕事はこの社会のあちこちに転がっているはず。

次はままごと。ままごとは計算機にとって圧倒的に困難な課題。それを確認するために研究の現状を見ておこう。もう2年前になるが、人間とロボット (チャットボットなどとは違い、現実世界を動き回るもの) とのコミュニケーションに取り組んでいる研究者の講演を聞く機会があった。そこでは、人間が対話を通じて教示することで、ロボットが物の名前を学習するという課題に取り組んでいた。名前というのは難しいもので、普通名詞か固有名詞か、普通名詞だとすると、物体のどんな要素がその名詞と結びついているかが問題になる。ところが、その研究では、名前の固有名詞性を仮定していた。特定の研究がどうというのではなく、人類の研究の現状がその程度なのだろう。

それとくらべると、ままごとは何段階も高度。Google Images でままごと検索すると気合の入った既成品ばかり出てきて良くないのだが、もっと素朴な設定で、例えば薄く細長い木の板を包丁に見立てたとする。見立てるというのは実に高度な知的営み。現実にある板が板であることはもちろん認識している。そこに包丁という虚構の概念を紐付ける。しかもそれが虚構であることを認識し続ける。その木の板で何かを切る動作をしたとする。切る機能は虚構であるところの包丁に由来する。現実には切れていなくても、仮想的には切れていることなっている。つまり現実に関する認識と虚構に関する認識が紐付けられた状態を維持したまま更新されていていく。

ここまででも、計算機上での実現の困難性に打ち震えるほかないのだが、ダメ押しに、複数人でのままごとを考えてみる。複数の参加者が難なく意図を共有できているように見える。しかし、現実に関する認識の共有はともかくとして、虚構に関する認識がなぜ自然にできてしまうのだろうか? ままごとに限ると、調理に対象が限定されて意図が推測しやすいと思われるかもしれないが、ごっこ遊びは幼児に広く観察される現象である。模倣の対象が一般に確立されたものでないかもしれない。初見のごっこ遊びであったとしても、意図の共有に大きな困難があるようには見えない。そこにはおそらく生得的な何かがある。そして、それは人間をその他の動物とわける何かである。

さて、私は日本の大学に所属する研究者であり、懸案は年々悪化する環境のなかでどうやって生き残り、自分が重要と信じる研究を続けるかである。安易な生き残り策として挙がるのは、知的なようで実は知的でない問題を解き、高度な人工知能として喧伝し続けること。もちろん本当に重要だと思っているのはままごとの方。しかし、すぐに実用化して金になりそうな研究以外に何の価値もないと思われている以上、ままごとの研究をするには何らかの cover story をでっちあげなければならない。どういう話がよいだろうか?

*1:それぞれ工学部情報学科と情報学研究科知能情報学専攻を指す。

*2:実働の研究者はもちろん実態がわかっていたにも関わらず。

*3:機械翻訳の研究を横から眺めていると、できる部分はできるようになったけど、できない部分はできないままだし、そこは何ともなっていない印象がある。

2018-08-05

Areal pressure in grammatical evolution: An Indo-European case study

言語

Chundra Cathcart, Gerd Carling, Filip Larsson, Niklas Johansson and Erich Round. 2018. Areal pressure in grammatical evolution: An Indo-European case study. Diachronica 35(1). (appendix, code).

言語変化には縦の継承と横の接触という現象が関わり、両者をどうモデル化するかはいまだに決定打のない問題。この論文は普通はあえてやらないことをやっている。具体的には、縦のモデルたる系統樹モデルを使って (つまり接触については陽にモデル化せずに)、特徴を fitting し、系統樹上で変化の起きた時刻と場所を推定する。次に変化の時刻と場所をかきあつめて、2つの変化の時刻と場所が近ければ接触の可能性があると考える。

類型論の特徴の変化を単純化、複雑化、中立の 3 種類に分類し、それらと接触の関係を調べている。著者らは、複雑化に分類される変化は有意に非接触的だと主張している。

そういう結果が出ても不思議ではないが、手続きに微妙な点がいろいろある。そのあたりを整理するために書き出してみる。

系統樹モデルの限界

接触があると系統樹モデルは失敗するかもしれないというのが話の前提。この前提がありながら、系統樹を使って推定した結果から接触の分析を行うところがこの研究の意外性。

系統樹に沿った特徴の時間変化を考える。与えられるのは (時刻つき) 系統樹と葉の状態。推定するのは内部ノード (根を含む) の状態と、変化を支配する遷移率パラメータ。

魔法があるわけではない。子孫が同じ状態を共有していれば、それらの共通祖先も同じ状態だと推定できる。直感的にはそんな感じ。もちろん基本的には古い時代になればなるほど推定の不確実性が高まる。

系統樹モデルにおいて接触はどのような影響を及ぼすか。1 例を示す。各ノードが言語、その色が着目している特徴の状態を表す。? の記された内部ノードの状態は本当は知らない。

図 (a) が実際に起きた変化とする。矢印が接触を表す。モデルに推定させると、図 (b) のような結果が得られる可能性が高い。バツは変化の起きた地点を表す。このように推定した方が変化の回数が少なく、高い確率が得られるから。

接触があるのに系統樹モデルの適用を強行した場合、こんな感じの誤推定があちこちで起きるはず。つまり、系統樹モデルから接触を調べるのは garbage in, garbage out である危険がある。あえてやろうとは思わない。

祖先性制約

この問題への対策であると論文中で明確に主張しているわけではないが、著者らは系統樹モデルに祖先性制約 (ancestry constraint) を導入していることを強調する。よく見ると、今回の論文の第 1 著者が 2015 年の論文の第 2 著者だった。しかし、2015 年の論文は言語学的な分析と統計モデルの使い方の両方が本格的で驚いたが、今回の論文は統計面では怪しさが目立つ。やはり Will Chang が特異的にすごかったのだろうか。*1

祖先性制約について振り返っておく。現代語データに加えて文献記録の残る古代語のデータを系統樹モデルに与えるとき、通常は古代語も葉ノードにする。現代語は古代語の直接の子孫とは限らず、文語の近い親戚であるところの口語の子孫と考えた方が良い場合がある。このとき、内部ノードとして現代語・古代語共通祖語が系統樹上に設定される。共通祖語から古代語への枝がごくごく短いことが期待される。しかし、実際に推定してみると非常に長い枝が得られる場合がある。これは、共通祖語の状態が正解から程遠いものになっていることを示唆する。これに対し、祖先性制約は古代語が現代語の祖先となるよう取り得る系統樹候補に制約を加える。そうすると、古い時代にさかのぼる途中で強制的に古代語の状態になり、正解からかけ離れた状態を推定するのを防ぐ。

落ち着いて考えてみると、系統樹モデルで過去を復元したとき、実は既知であるところの過去には問題があったので対策を打ったという話である。既知の部分がそんな調子なら、本当に知りたいところの未知の過去についての推定結果が信用できるのかとつっこみたい気がしないでもない。現時点で得られるデータからの推定であって、データが増えたら推定結果も変わるものだとベイズ的に捉えるのが良いだろう。

祖先性制約は接触への対策であるはずなのに、なぜか著者らはそれを議論しない。上図の例で言うと、もし右3つの葉ノードの共通祖先の状態が黄色だと知っていたら、誤って青色と推定することはない。祖先が黄色で子孫が青色なら枝の途中で最低 1 回は変化が起きたことになる。これが祖先性制約の成功例。

失敗例も同じ図で説明できる。今度は右3つではなく、右4つの葉ノードの共通祖先の状態を知っていたとする。この場合は制約が役にたたず、図 (b) のように推定を誤ったままとなる。

結局、制約があるところでは (ある程度) うまくいっているかもしれないし、うまくいっていないかもしれない。制約がないところではうまくいっているかわからない。そして、著者らはこの問題をまったく調べていない。

その他

一番の問題を片付けたので残りを順番に見ていく。

データとしては Diachronic Atlas of Comparative Linguistics (DiACL) を使っている。というか、作っているのは第 2 著者。印欧語族を中心にアマゾン流域の言語とオーストロネシア語族を追加したような偏ったデータベース。日本語は載っていないし、個人的には使う気がしない。しかし、古代語の類型論的特徴が少しだが登録してあるのは魅力的。*2

データベースの中から印欧語族のみ取り出している。Greenberg 以来の類型論の研究では、複数の語族、地域で成り立つということが重要だったはず。Dunn et al. (2011) に対する批判がそのままこの研究にもあてはまる。

古代語を含む基礎語彙データをまず Will Chang が改造した BEAST に与えて年代付き系統樹を得る。この際地理位置も同時推定しているが、詳細を説明しない。*3 内部ノードが海上に置かれたりしているのを見ると、地理は考慮せずに単なるブラウン運動としてモデル化していると推測。根の地理位置の事前分布として平均 0、分散 0.001 の正規分布を緯度、経度それぞれに対して置くという意味のわからないことをやっている。一様分布では駄目なのか?

年代・地理位置付き系統樹を 20 個サンプリングし、根がユーラシアの外に出てしまった 2 個を取り除いて 18 個を分析に使う。どうしてこんなに少ないのか。自動処理なのだからもっと増やしても問題ないはず。1,000 個ぐらい使いたい。

基礎語彙から得られた年代・地理位置付き系統樹に今度は類型論的特徴を fitting する。得られた複数の木は Pagel and Meade (2006) のように、一つのモデルに組み込むと理論的にきれいだが、別々に処理している。内部ノードの状態はサンプリングすると得られる。

ノードの状態を決めると、それをもとに変化が起きた変化の位置 (時刻、地理位置) を推定する。親の状態が 1、子の状態が 0 のように親子間で状態が異なる枝に着目する。親から子の状態変化が 1 → 0 (死亡) なら、1 回しか変化が起きていないと仮定する。しかし、これは厳密には誤り。1 → 0 → 1 → 0 のように 3 回変化が起きた場合も考慮しなければならない。同様に、親子で同じ値であっても、1 → 0 → 1 のように偶数回の変化が起きた可能性もわずかだがある。*4

変化の位置を決めると、次に地理位置を決める。しかし、ここで説明している式 (7) は明らかに誤っている。気持ちを汲むと、親の時刻から変化地点までの長さに比例した位置を求めている。コードを確認するとそうなっていた。そうだとしてもやはり変で、仮にブラウン運動でモデル化していたとすると、親から子へと一直線に一定速度で動いているわけではない。本当は確率分布からサンプリングしないといけない。

6.1.1 でモデルの定量評価を行っているが、説明を読んでもよくわからない。またあとで読み返すかも。

6.1.3 で特徴間の依存関係について議論している。自明な、論理的な依存関係だけしか見ていない。ぼんやり読んでいると Greenberg 的な implicational universal も議論しているかのように錯覚する。著者らはモデルには何の対策も加えず、推定された結果における論理的に取り得ない値の組み合わせの割合を調べている。

とにもかくにも、こうして系統樹上での変化の時刻、地理位置が得られると、各変化タイプの性質を mean nearest-neighbor distance (MNN) という尺度で要約する。ある変化 (e.g. ある特徴の誕生) の系統樹上の事例に着目したとき、同じ変化の事例のなかで一番近いもの (nearest neighbor) の距離を得る。その平均が MNN。ここで距離を定義する必要がある。時間と空間を無理やり混ぜた変な尺度を式 (9) で導入している。

MNN を更にいろいろ補正して最終的な値が得られる。最初に書いたように、特徴の変化を、単純化、複雑化、中立の 3 種類にわけて傾向の違いを見たとき、複雑化だけは接触的ではないとしている。ここの補正も怪しい気がするが、気が向いたらまた考えることにする。

さてツッコミの時間。系統樹上で同じタイプの変化を探すという方針は妥当だろうか。わかりやすい例でいくと、SVO 語順の言語の話者が SOV 語順の言語だらけの地域にやってきて SOV 語順を獲得したとする。この場合、接触は起きているが変化するのは 1 言語だけなので、接触した言語は nearest-neighbor にならない。それで良いのだろうか?

印欧語族しか考えないのはどうか、例えばバルカンでトルコ語を無視してよいのかについては議論している。この議論は系統樹そのものと絡めて議論すべきだと思う。系統樹は、時間をさかのぼるにつれてノードを合流させていき、次第にノード数が減っていく。古代に話されていた言語の数が少なく、特定地域に集中していたわけではもちろんない。子孫を残さずに滅びていた言語が同時代に存在したのである。これは何も印欧語族と他の語族との接触に限らず、印欧語族内でも起きていること。

言語は、一度置き換えが起きてしまうと、置き換え前の状態は失われてしまって復元できない。せいぜい若干の痕跡が確認できるくらい。言語データは本質的に厳しい。DNA であれば、接触が起きたあとの状態から接触前の状態が復元できてしまう。言語と同じ離散データだが、接触の結果起きるのは頻度の変動であって、上書きされるわけではないから。ある allele の頻度が 0.8 の集団と 0.4 の集団が混じって 0.7 になるといった具合。こういう点が数十万のオーダで得られるおかげで、純粋な形では現存しない幽霊集団であっても復元できてしまう。接触を言語だけから特定するのは限界がある。何とかして遺伝データを活用したいところ。

そんなこんなでツッコミどころの多い論文である。Diachronica は言語系の雑誌だし、査読者も編集者も統計的な部分をろくに理解しないまま通してしまった疑惑。*5

*1:第 1 著者が書いた Python のコードはかなり汚い。

*2:autotyp 0.1.0 も中東の古代言語を収録している。

*3:公開されているコードには BEAST の設定ファイルは含まれていない。

*4:この論文が参照している Nielsen (2002) は正しく説明しているのに。

*5:editorial board に Quentin D. Atkinson がいるけど。

2018-06-15

再び語について

NLP

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説明するか。作業中のメモを垂れ流していく方式

syntactic word に対する立場

syntactic word には様々な側面があるが、ここでは morpheme に対して word に特別な地位を認めるという点を考える。要点は、UD の word に対する方針に、理論的に反対の立場が存在するらしいこと。

今回の起点は de Marneffe (LREC2014)。Manning のグループ。前回の記事で確認したように、UD 主要開発者は UD 2.0 を出すまで類型論を認識していなかった。言語処理研究者から見える言語学業界には偏りがある。Manning の昔の論文に LFG のものがあった。おそらくその頃仕入れた知識が de Marneffe (LREC2014) に反映されている。

There is a longstanding, unresolved debate in linguistics between theories which attempt to build up both words and phrases using the same compositional syntactic mechanisms (and in which the notion of a word has minimal privileged existence) versus those theories where the word is a fundamental unit and which see the morphological processes that build up words as fundamentally different from and hidden to those that build up sentences, sometimes termed the lexical integrity principle (Chomsky, 1970; Bresnan and Mchombo, 1995; Aronoff, 2007).

Chomsky (1970) はネットに落ちていたのを斜め読みした限りでは、立場がよくわからない。次の論文は LFG。私は LFG についてほぼ何も知らない。morphology と syntax を区別する formalism だという理解。ある handbook の原稿によると、そこは LFG と HPSG との共通点。

反対に morphology と syntax を区別しない立場。distributed morphology がそういう立場だと伝え聞く。生成文法業界の個別の流派がどうなっているかよくわからないし、ましてや全体像を俯瞰的に把握することもできていない。例えば、最近時々名前を聞く nanosyntax は、morphology よりも細かい単位まで syntax の領域を広げているという理解で良いのだろうか。もっと普通の生成文法系の論文でもword の内部に対して文脈自由文法的な木を作っている例を見かけるが、どういう立場なのか。

日本語の syntactic word

これについては去年の記事に書いたので詳述しない。要点は、

syntactic word の認定は、実質的に affix と clitic を識別する作業となる
- Haspelmath (2011) は、これまでに提案されてきた基準では、通言語的に妥当な概念としての word を認定できないと主張している
服部 (1950) を例外として、syntactic word という観点からの研究は日本の言語学や国語学の主流から外れまくっている
宮岡 (2015) が言語学者としては具体性をともなった日本語の word 認定案を提示している
しかし、もちろん、実際のコーパスアノテーションのための仕様としてはまったく不充分で、かなりの作業が発生することが予想される
通称 Greg 文書のおかげで、現在の日本語 UD が UD の word の方針に従っていないことは UD 主要開発者に認知されている

短単位

『現代日本語書き言葉均衡コーパス』形態論情報規程集第4版 (上) という恐ろしい仕様書に、国語研的な経緯が記されている。

syntactic word の議論とはまったく無関係に規定されている
30年以上の過去の経緯を引き継いで引き返せないところまできている。国語研がその遺産を捨てるとは思えない

脚注3

ここで言う「操作主義的な立場」とは，「これこれこういうものを「～単位」とする，という規定をするだけで，その「～単位」が言語学的にどのようなものなのか，単語なのか，単語でないとすれば，どこが単語とちがうのか，といった問題には，まったくふれない」(国立国語研究所1987:11)という単位設計上の立場を指す。

本文

調査単位の設計に当たって操作主義的な立場を取ってきたのは，「必要以上に学術的な議論に深入りし，実際上の作業がすすまないことをおそれたため」(国立国語研究所1987:12)であり，「学者の数ほどもある「単語」の定義について，まず，意見を一致させてから，というのでは，見とおしがたたない。」(同:12)からである。
このような立場に対しては，当然のことながら「語というのは何なのか，調査のため便宜的に設けられた単位にすぎないのかという問題が残る。」(前田1985:740)という批判がある。確かに，語というものを定義しようとする以上，語とは何かという本質的な議論を積み重ねていくことは重要なことである。しかし，国立国語研究所(1987:12)に，「原則的にただしい定義に達したとしても，それが現実の単位きり作業に役立たないならば，無意味である。語い調査というのは，現象の処理なのだから。」と述べられているように，語彙調査においては対象とする言語資料に現れた個々の事象を，的確に処理することも極めて重要である。このことから，これまでの語彙調査では，語とは何かという本質的な議論よりも，言語現象を的確に処理することを重視してきた。

どうするか: 妥協としての短単位

短単位の採用を擁護するとしたら、どのような論理でそれを行うか。

UD はタスクとして難しい
- 言語の構造的な比較をやってきたのは言語類型論で、そこでは難しい問題が昔から議論されてきたが、UD 開発者がそれを認識しだしたのは最近
- UD 2.0 では類型論の立場からの提言 (Croft, 2017) が一部採用されたが、これで充分とは思えない
- 類型論的に多様な言語が UD に加わるにつれ、UD の不備が明らかになり、仕様に変更が加わると予想
自動変換を主な構築手段とすることには、仕様の変化への対応が容易という利点がある
- 加えて、日本語係り受け自体は既存の資源があるなかで、コーパスを人手で作るという車輪の再発明に避ける人的資源は限られる
- 一方で、自動変換はいろいろ怪しいので、少しは手動でタグづけした方が良いという話も
既存の係り受けコーパスには、syntactic word を自動抽出できるものは存在しない
短単位は syntactic word ではないが、自動変換でできることしかしないという方針を採る限り、一番現実的な単位
問題
- 派生接辞を係り受けで扱うのは気持ち悪い

もし手作業を行うなら

いわゆる自立語は単独で word を構成するとみなす
- 語彙的複合語に対しては UD も妥協している
いわゆる付属語を affix と clitic に手作業で分類する
- ほとんどは辞書項目に対してタグを付与すればよいはず
  - 可能性に基づく品詞体系の品詞の単位でそれが行えるのか、語彙項目ごとの処理になるかは不明
- 曖昧性があり、個別の出現への対応が必要だと現在わかっているのは、「らしい」
  - 「男らしい人」(affix) vs. 「どうやら男らしい」(clitic)

TODO: そもそも UD に取り組む理由

あまり問題点ばかり述べていたら、そもそもなぜやっているのかとツッコまれる。UD に取り組むべき理由も説明しないといけない。

バスに乗り遅れるな論というか、国際的な枠組みから日本語が取り残される可能性
- それを言うと、コーパスのライセンスと入手しやすさも問題
言語間の比較が妥当に行える資源がほしい
- cross-lingual projection とか unsupervised grammar induction とか

2019年6月27日追記: arXiv に投げた。

2018-06-04

Universal Dependencies と類型論

NLP

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。

Universal Dependencies (UD) は通言語的に一貫した係り受け木を設計して、世界中の言語の treebank を作るプロジェクト。通言語的という点で言語類型論との関わりの深さは明らかなように思える。しかし、UD の主要開発者が当初からそれを認識していたようには見えない。彼らがいつからどのように関係を認識したのか。現状はどうなっているのか。そして今後どうなるのか。

Nivre

UD の代表は Joakim Nivre。transition-based parsing で有名な人。この人を調査の起点にする。

COLING 2016 の invited talk は直接聞いた。意表を突かれたことを覚えている。あの William Croft が Linguistic Typology Meets Universal Dependencies という論文を発表する予定だという話が出たので。

しかし Croft への言及があった文脈は function head 対 content head*1という係り受けの設計方針について。Croft が content head を採用するという UD の方針に賛成しているという。それ以上の議論はなかった。

もう一つ、Nivre は Manning's Law を紹介しているが、このなかに類型論への言及がある。Manning's Law は、呉越同舟ななかでバランスを取りましょうという以上のことを言っているわけではない。6 つある項目の 2 番目が類型論への言及。

UD needs to be good for linguistic typology, i.e., providing a suitable basis for bringing out cross-linguistic parallelism across languages and language families.

しかし、いつ Chris Manning がこの見解を最初に述べたのかわからない。

RANLP 2017 の invited talk では、類型論への言及が増えている。William Croft に加えて、Martin Haspelmath の Comparative Concepts and Descriptive Categories in Crosslinguistic Studies (2010) を引用している。この論文は重要なのであとで振り返る。

github の issue を見ると、2016 年後半に Will Croft への言及が見られる。例えば Manning の 11 月 22 日のコメント:

BTW, there's been quite a bit of conversation off-GitHub between me, @jnivre and Bill Croft on how to define core vs. obl and subj/obj/iobj in the most typologically good way (though nothing is water-tight)

さて、今度は逆にさかのぼってみる。LREC 2016 の Universal Dependencies v1: A Multilingual Treebank Collection の時点では typology への言及がほぼない。"typologically different languages" という表現が一回出現するだけ。参考文献を見ても類型論色がない。

UD の諸母体

UD は既存のプロジェクトを統合する形ではじまった。LREC 2016 の論文が言及しているように、Universal Stanford Dependencies, Google の Universal Dependency Treebanks, Google の universal part-of-speech tags, Zeman らの tagset など。

Zeman et al. Reusable Tagset Conversion Using Tagset Drivers. (LREC 2008) は POS tag と feature について議論している。別々に設計された複数の tagset を統一体系に変換するが、その際になるべく情報を失わないようにしようというだけ。typology という単語すら出てこない。

Zeman et al. HamleDT: To Parse or Not to Parse?. (LREC 2012) も typology への言及がない。複数の既存の treebank をいい感じに変換しようという以上の設計思想はないように見える。

de Marneffe et al. Universal Stanford Dependencies: A cross-linguistic typology. (LREC 2014) は Manning のグループの論文。表題に typology とあるが、どういう意図でそうしたのかよくわからない。個別の現象の議論はあるが、背後にある設計思想の説明がとぼしい。typology の論文は引用されていない。Chomskyan な文献と LFG への言及があるだけで、functional な類型論が認識されているように見えない。

McDonald et al. Universal Dependency Annotation for Multilingual Parsing. (ACL 2013) は Google の project。typology という語は出てくるが、いろんな言語を対象とするという以上の意味は見いだせない。

Petrov et al. A Universal Part-of-Speech Tagset. (LREC 2012) は Google の POS tagset。この論文も本文に typology という語は出てこないが、universal を議論する過程でかすっている。universal な category の存在を支持するものとして Carnie (2002) と Newmeyer (2005) を引いている。いずれも生成文法系。類型論は Chomskyan や句構造文法系の研究とは溝が深そうだけど。反対に universal 懐疑派の例として Evans and Levinson (2009) を引いている。しかし結論が以下なので、論文を飾る以上の積極的な意味はなさそう。

we took a pragmatic approach during the design of the universal POS tagset and focused our attention on the POS categories that we expect to be most useful (and necessary) for users of POS taggers.

ざっとこんな感じ。UD 以前に類型論の研究が認知されていた形跡はない。UD 1.0 時代もそれは同じ。UD 2.0 にする際に類型論を認識し始めた、あるいは類型論を認識し始めた結果として改訂版を作ったというところか。

Croft (2017ab)

Croft (2017a). Linguistic typology meets Universal Dependencies を見ると、UD 2.0 になるときに Croft の意見が一部反映され、残りは反映されなかったらしい。これは github の issue の諸コメントとも整合する。

改めて UD の構成要素を考えると以下の 5 種類が挙げられる。

語の単位
語の POS tag
語の feature
係り受けの設計方針 (content head, coordination の扱いなど)
係り受けの label

Croft の議論の対象は係り受けの方針と label。方針は abstract にある通り。

dependencies should be based primarily on universal construction types over language-specific strategies. syntactic dependency labels should match lexical feature names for the same function; dependencies should be based on the information packaging function of constructions, not lexical semantic types; and dependencies should keep distinct the "ranks" of the functional dependency tree.

construction と strategy という 2 つの概念を導入し、両者を区別している。construction は意味・機能を捉えたもので、通言語的に定義できるとする。strategy は construction を実現する具体的な形態統語的手段を指す。例えば、predicate nominal construction という通言語的な construction が設定できる。英語は copula strategy を使う。論文では言及されていないが、ロシア語は copula なしの strategy を使う。両者を統一的に扱うには、content head の係り受けを採用すると良い。それだけなら、ロシア語は良いとして、英語の copula が迷子になる。そこで common strategy にも label を与える必要がある。*2

Of course, elements in a universal scheme that represent strategies, at least the most commonly occurring strategies, will also be needed.

論文後半では information packaging という観点からの label の体系化を試みている。UD 2.0 ではこの提案はほぼ無視されている。ヨーロッパでは馴染みのない概念だからか。

construction を優先するということは、形式と意味の等価性を軽視するということ。言語特有の下位範疇を特別に用意しない限り、各言語特有の形式と意味との関係は一般に失われてしまう。言語間で比較可能にするには仕方がないか。

Using typology to develop guidelines for Universal Dependencies は NoDaLiDa Workshop on Universal Dependencies (2017) の invited talk の extended abstract。Croft (2017a) よりも個別具体的な現象を議論していて面白い。最初の方で、

There are different and more difficult issues in the POS tagging and morphological feature tagging of the UD enterprise, which I will not go into here.

と断っている。POS tag と feature の方が難しいという認識は興味深い。

Haspelmath (2010)

Martin Haspelmath. 2010. Comparative concepts and descriptive categories in crosslinguistic studies. Language (86).

類型論の研究でよく問題となるのは比較の妥当性。ある言語のある現象と別の言語のある現象を比較するとして、はたしてその比較は妥当といえるのか? この問題をつきつめると Haspelmath (2010) ができあがる。

Haspelmath (2010) は記述範疇 (descriptive category) と比較概念 (comparative concept) を区別する必要性を論じる。比較に使うのは後者。係り受け label もそうだが、Croft が触れなかった POS tagset にも関わる議論。

記述範疇は言語特有の範疇。比較概念は言語間比較のための概念。両者は別。比較概念は言語に依存しない conceptual-semantic concept, general formal concept, other comparative concept によって組み立てないといけない。general formal concept の例として Haspelmath が挙げているのは precede, identical, overt。ここまで来るとたしかに言語依存性はない。

5 節でいろいろ例を挙げている。例えば 5.2 で Future Tense を以下のように定義する。

A future tense is a grammatical marker associated with the verb that has future time reference as one prominent meaning.

future time reference は conceptual-semantic concept, verb は comparative concept、grammatical marker も comparative concept。associated with と prominent が曖昧なので明確化する必要があると述べる。tomorrow のような副詞を対象から外すには、grammatical marker のような comparative concept を使わざるを得ない。

スペイン語の future tense は probability を表すが、habituability を含まず、(Haspelmath の専門の) レズギ語は反対に habituality を含むが probability は表さない。このように future tense と言われるものの機能は言語によって異なる。Haspelmath の比較概念は、定義にある future time reference を行うための grammatical marker であれば、機能の範囲の違いを無視して対象とする。結果として、各言語の体系を無視して比較のために一部を切り取るような操作を行うことになる。category ではなく concept だと言っているのはそれが理由だろう。

一方 universal dependencies で付与される品詞と係り受け label は全体を区分けしてくという意味で範疇。*3しかし Haspelmath が言う通り、範疇は厳密には言語間で比較できない。

Descriptive formal categories cannot be equated across languages because the criteria for category-assignment are different from language to language.

要するに、ある言語の VERB と別の言語の VERB は厳密には比較可能でないし、これは本質的な問題なので、今後比較可能になることもないだろう。結局のところ UD が何を行っているのかは曖昧なまま。

*1:syntactic head と semantic head とも言う

*2:議論がややこしいが、結論としては cxp を与えるらしい。UD 2.0 にはこの label は採用されず、cop を使う。

*3:feature が範疇と言えるかは微妙。

2017-08-27

節か否か

NLP

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier) と acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (clause)。同じ問題が副詞 (advmod と advcl) にもある。

問題の所在

英語の場合、

red meat

は red <-(amod)- meat、

many online sites offering booking facilities

sites -(acl)-> offering とラベルをふる。前者は語の修飾で、後者は節の修飾。

日本語でも

赤い目

は赤い <-(amod)- 目で良さそうな気がする。「とても赤い目」のように程度の副詞で形容詞を修飾できるのも英語と同じ。

しかし、

目が赤い人

や

時間に厳しい人

や

いまとても熱い話題

になると節っぽいので acl が良さそう。そう考えると「赤い目」も acl にしたほうが統一的ではないかとも思えてくる。

関連して、形容詞が名詞的な英語と違い、日本語の場合は動詞的で、

赤かった目

のように活用変化する。「-い」も、現在なのか非過去なのか、ともかく何らかの TAM を表してそうという点でも英語とは異なる。

ざっと調べた限りでは、暫定的な結論として、以下の案が良さそう。

一律に acl をふる
節と解釈するには微妙な例があることを説明し、今後の課題とする

類型論

Universal Dependencies は類型論と関係が深い。世界中の言語に対照可能な解析を与えようというのだから。そこに沼が広がっているのは明らかで、パンドラの箱をあけてしまった感がある。

そんなこんなで、まずは類型論の研究を探してみたが、あまり収穫はなかった。調査開始前になんとなく認知していたのは Bernard Comrie の「アジア式」関係節に関する研究。名詞修飾表現について、寺村の「内の関係」、「外の関係」の分析を発展させたような話。今回ざっと見た限りでは、用例が動詞ばかりだったし、そもそも節か否かに関する議論は見当たらなかった。*1

次が 2016 年の論文。

Jan Rijkhoff. 2016. Crosslinguistic categories in morphosyntactic typology: Problems and prospects. Linguistic Typology. 20(2).

Rijkhoff は、Dryer などの古典的な語順の類型論の研究が、Adjective, Genitive, Relative Clause 等の概念を定義することなく使っていることを批判している。しかし、代わりに比較対象として持ち出したのは Qualifying Modifier のような functional category。結局 morphological unit (adjective, genitive, relative clause) の概念を明確化していない。

R. M. W. Dixon and Alexandra Y. Aikhenvald ed. 2004. Adjectives Classes.

この本は、そもそも類型論的に形容詞という概念が成り立つのかに焦点をあてている。Dixon の主張は成り立つというもの。ヨーロッパ的な名詞的形容詞以外も、closed class の場合*2でも、積極的に形容詞と認定していくという立場。*3

この議論においては、日本語は形容詞と形容動詞という 2 種類の形容詞があるという点で面白いらしい。2 章 Anthony E. Backhouse の Inflected and Uninflected Adjectives in Japanese はそこにしか触れていない。9 章 Ho-min Sohn の The Adjective Class in Korean はもう少し広く現象を紹介している。Dixon からの流れで、朝鮮語にも形容詞はあるという立場。「目が赤い人」と同じ構文の

[키가 큰] [사람]

を取り上げて relative clause だと言っているが、より基本的な「赤い目」構文をどう解釈しているのか不明。

生成文法

生成文法方面ではけっこう研究されている気配があった。

Min-Joo Kim. 2002. Does Korean have adjectives?. MIT Working Papers in Linguistics. 43.

Kim (2002) は、朝鮮語の形容詞は stative verb であるという立場。これは形容詞という概念をどう定義するかによる。ここで重要なのは次の主張。

apparent noun-modifying adjectives in Korean are predicates inside relative clauses.

ということで、relative clause だという立場。-n を relativizer だとみなし、

[ e1 yeppu]-n1 yeca

のように gap を導入して分析する。

Mark C. Baker. 2003. "Verbal Adjectives" as Adjectives without Phi-features. Proc. of the Fourth Tokyo Conference on Psycholinguistics.

類型論よりの生成文法をやっている Baker は日本語の「美しい女」構文を取り上げて、cannot enter into direct attributive modification in Japanese, but rather form relative-clause-like structures という。「い」がついているのが direct modification ではないという解釈。論文では、これを説明するために phi-features という agreement がらみの概念を導入し、日本語はこれを欠いているので direct modification ができないと説明する。

Menon (2013) は Malayalam を扱うが、従来研究として Baker (2003) に触れ、さらに Baker (2003) が取り上げていなかった「きれいな女」のような形容動詞も attributive modification を行えないことを指摘している。

Junko Shimoyama. 2014. The size of noun modifiers and degree quantifier movement. Journal of East Asian Linguistics. 23(3).

Japanese lacks direct adjectival modification という見方は Kuno 1973; Shibatani 1978; Whitman 1981; Dixon 1982; Miyagawa 1984; Makino and Tsutsui 1986; Urushibara 1993; Nishiyama 1999, 2005 で広く支持されているという。

しかし、Shimoyama (2014) は、direct modification である可能性が否定できないとする。そこで取り上げているのは微妙な話で、比較表現の解釈。

ジョンが一番高い山に登った。

における「一番高い山」が絶対的に一番高い山なのか、他人が登った山と比較して一番高い山なのか。

一番ジョンが高い山に登った。

だと後者の読みしかできない。この手の解釈はスコープの島制約と結びついており、finite relative clause だと制約が期待されるのに、実際には見られないという議論。

Hiroko Yamakido. 2005. The Nature of Adjectival Inflection in Japanese. PhD Thesis.

この博論が従来研究の紹介をふくめて一番詳しそう。Yamakido (2005) も、3 章で、copular relative clause と解釈するには不都合な場合があることを指摘している。「ピーターが古い友だちだ」は Peter has been a friend for a long time の意味にしか解釈できない。Peter is old and Peter is a friend とは解釈できず、「ピーターが友達で、ピーターが古い」とは言い換えられない。attributive adjectives は intersective でない場合があるが、relative clause だとすると intersectivity が成り立つと期待される。次に時間に関する解釈を 3.6.2 で取り上げている。

4 章では急進的な主張を展開している。形容詞の -i, -ku、形容動詞の -na, -ni は case marker だと主張し、ペルシア語のエザーフェと比較している。真面目に読んで検討すべきかもしれないが、すぐに UD に採用するという話にはならないだろう。

雑感

まあこんな感じで、素人が付け焼き刃の調査でやっている。どこかから理論系の人と類型論の人を連れてきて投入したい。

*1:Haspelmath の論文も 3.5. Relative clause で取り上げているのは動詞のみ。

*2:アフリカのイボ語には形容詞が5個しかないとか。

*3:他の特徴との相関から日本語の歴史的変化を推測している部分 (p.35) は面白い。Stage One: Japanese lacked dependent marking. It probably also lacked head marking, showing syntactic function by the ordering of phrasal constituents within a clause. There was a single class of adjectives (the present inflected class), similar to verbs in their grammatical behavior.

2017-05-05

「語」とはなにか・再考

NLP 本

宮岡伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.

書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそもの Universal Dependencies は、通言語的に一貫した (universal) 係り受け (dependency) のデータを作るプロジェクト。日本語 UD はその日本語版。UD では、できるかぎり特定の言語に依存しない共通の方針やタグセットを用意しておき、そこに収まらないものだけは各言語で対処する。その方針自体は良い。*1 問題は日本語 UD が根本的なところで共通方針に従っていないこと。その結果、普遍的でも何でもない代物になってしまっている。

具体的な問題は、語 (word) の認定基準がおかしいこと。ここでいう語は係り受けの単位。日本語 UD は BCCWJ (現代日本語書き言葉均衡コーパス) 由来の「短単位」(short unit word, SUW) を語とみなしている。しかし、短単位は通言語的にみて語ではないものを含んでいる。UD の方針にあわせるには、まずいわゆる付属語 (助詞、助動詞) を接語 (clitic) と接辞 (affix) にわけなければならない。接語は単独で語をなすが、接辞はそうではない。接辞は自立語にくっつける必要がある。その塊こそが語であり、係り受けの単位である。

このように日本語 UD の認定基準を修正したとすると、次に問題となるのは、具体的にどのように接語と接辞を区分するか。作業量的にも難易度的にも言語処理研究者が片手間に行える範囲をこえている。そういうわけで次の一歩が踏み出せずに逡巡していた。そんなときに宮岡 (2015) が答えを提供していることに気づいてしまった、というお話。

UD の重要性

日本語 UD の問題は放置しておくとまずそうだと思っている。ただし、短期的にはさほど重要ではない。実際、現在のところ、私は UD に関わっていない。UD 日本語をやっているのは知り合いだけど。とりあえず日本語処理の研究をする分には、いまの研究室がこれまで整備してきた資源で足りている。

短期的には、UD が整備されてできるようになるのは、教師なし文法獲得と類型論的興味からの多言語処理。例えば、ある言語と別の言語の構文構造がどのくらい似ているかという疑問に答えたい。普通は類型論の研究者が人手で作った特徴量を用いるところだが、データ駆動で定量化したい。実は2011年くらいから研究があり、各言語の構文解析のパラメータを同一空間上で表現して比較する。通常の構文解析のパラメータは言語ごとにばらばらで比較できない。この研究では、言語間で共通の品詞体系を用意することで、言語間の比較を実現していた。しかし、結果が直感に反している。日本語がヨーロッパ言語と離れているのはわかるが、トルコ語とも離れすぎ。しかし、これが本当に言語的な違いに由来するのか、もしくはアノテーション基準の違いに由来するのかわからなかった。

ちなみに世の中一般的な UD への需要は別にある。言語ごとに解析器を一から作っていては効率が悪い。モデルは共通のものを1個だけ作って、あとは各言語のデータを流し込んで機械学習すれば構文解析器が完成するという状態になってほしい。そのための仕様の共通化。*2 とにかく動けば良いという立場の人は通言語的一貫性をあまり気にしないかもしれない。私の興味からすると、そこをちゃんと詰めることこそが重要。

長期的には、日本語処理の将来性の問題にかかわる。もしこの先 UD が世界的に標準的地位を確立したら (その可能性はそれなりにある)、それ以外の資源の地位は危うい。シェア争いには勝たねばならない。そもそも現在の日本語処理の資源は日本の外から使いにくい状態にある。データの入手が困難だし、日本語独自のオレオレ仕様だし、仕様書も日本語で書いてあって読める人が限られる。*3 日本語処理を存続させるためには、国外からも研究できる状態を整備する必要がある。私自身、いつまで日本で研究を続けられるかわからないし。

語の認定

本題。UD の方針は Tokenization and Word Segmentation に書かれている。それによると、係り受けの単位は syntactic words (not phonological or orthographic words)。orthographic word は分かち書きの話なので日本語とは無関係。phonological word はアクセントやイントネーション上のまとまり。語よりも大きく、文節と一致することもあるが、そうでない場合もある。現象として複雑で、私もちゃんと把握していない。宮岡 (2015) も詳細には立ち入らない。

syntactic words を単位とするという UD の方針が堅持されるとひとまず仮定する。トルコ語 UD で inflectional group という独自の単位が規模を縮小しつつも維持されていることを考えると、修正が入る可能性はある。*4

この方針では接語は語の仲間であり、係り受けの単位となる。接辞は語をなさない。

短単位は語ではない

ところが、日本語 UD は短単位 (SUW) を単位として採用してしまっている。短単位の認定基準の複雑さは尋常ではないが、大雑把に言えば形態素。つまり接辞を含んでいる。

どうしてこんなことになってしまったのか。日本語 UD 関係者は UD 以前から「単語」単位の係り受けに取り組んできたので、その延長なのだろう。ここでいう「単語」は超短単位といって、短単位をもとにし、さらに用言の語尾を切り出したもの。もちろん語ではない。

上記論文の著者にかぎらず、日本語 UD 関係者の間では、文節は日本語独自の単位であり、世界では通用しないという思い込みが広く共有されているように見える。しかし、トルコ語やフィン語の orthographic word は文節によく似た単位であり、文節はさほど奇異なものではない。むしろ、接辞に係り受けをつける方針の方が異常で、他の言語の例を知らない。形態論の範囲の現象を統語的に扱うのは、単に気持ち悪いだけでなく、UD が想定していないので、品詞・素性の通言語的一貫性も損なわれる。日本語処理を英語や中国語と同じようにしたかったのだろうが、英語も中国語も類型論的に非典型的な言語であり、そんなものを見ていても通言語的な標準は確立できない。

ある日本語 UD 関係者は、統計的機械翻訳に取り組んでいて、文節の不便さを痛感したとのこと。日英や日中のアラインメントを高精度に行うには、両言語を意味的にほぼ同じ粒度で区切り、その単位で構文木を作りたい。それは理解できる。しかし、日英や日中がよくても、日本語・トルコ語や、日本語・フィン語の対応づけに困ることからわかるように、本質的な解決にはなっていない。トルコ語やフィン語を含む UD の共通方針そのものの変更を試みるか、あるいは UD から離れて応用依存の構文木の作成に舵を切ってもらうしかない。

また、英語や中国語の場合のように、係り受け解析は形態素解析 (「単語」分割、品詞タグ付け) の結果を直接使うべきもので、間にチャンキングを挟むべきではないという思い込みも見られる。しかし、UD の方針に従うなら、形態素解析のあとに、接辞を自立語にくっつける (チャンキング) 必要が生じる。現存する言語としては世界で唯一の異常な書記体系を日本語が採用している以上、どこかで日本語独自の処理を行ってそのゆがみを吸収するのはやむを得ない。他の分かち書きしない言語は孤立語的であり、形態論の役割はないに等しい。*5 他の言語では、文節に近い orthographic word が与えられており、その内部構造を考える必要はあっても、語への分割に悩まされることは基本的にない。日本語の場合は正書法的に語が与えられていないし、それをいきなり認定するのは難しい。辞書と文法を用いて解析する以上、生産性の高い現象があれば、まずは要素に分解するのが得策。それが形態素解析。その後に形態素をチャンキングして語を特定することになる。

語認定問題の先行研究

実のところ、宮岡 (2015) は語認定問題に関してまったく新しい提案をしているわけではない。先行研究が存在する。

まず、日本語 UD の問題は Thoughts on the Universal Dependencies proposal for Japanese (2016) で既に指摘されている。問題はこの記事で言い尽くされている。宮岡 (2015) を読むまで、私が付け加えることは特にないと思っていた。おまけに提案されている解決策も大筋で宮岡 (2015) と同じ。著者の Greg Pringle のことは、Bathrobe というハンドルで以前から知っていた。しかし、こんなにガチの人だとは知らなかった。参考文献に、著者自身の 1977 年の学位論文が挙がっているが、その表題が The Word as a Linguistic Unit in Japanese: Towards a descriptively adequate characterisation of Japanese from a morphological point of view。道理で異様に詳しいわけである。

Pringle (2016) と宮岡 (2015) が指摘するように、明治以降の国語学では、接語と接辞という観点からの区別を行わない傾向にあった。例外は毎度おなじみの服部四郎で、『附属語と附属形式』(1950) という論文を出している。採用している用語は異なるが、附属語は接語で、附属形式は接辞。服部は「附属語と附属形式を見分ける原則. I, II, III」として 3 つの原則をたてている。原則といっても、傾向を見ていたりして、明確な基準にはなっていない。より通言語的で一般的な語認定方針については Haslpelmath (2011) が検討しているが、やはり客観的な基準を打ち立てるのは難しそうである。宮岡 (2015) の方針は服部 (1950) とは異なる点があるものの、結論はほぼ同じに見える。

Pringle (2016) の提案も同じ。Pringle は文節をそのまま維持したがっているようなので、以下は妥協案という位置づけが正しいかもしれない。ちょっと埋もれている感があるので引用してみる。

treating:
1) particles following nouns as clitics
2) 'agglutinative morphemes' following verbs as suffixes or word endings
3) the copula as a separate word.
This results in sentence-ending question particles like か ka, conjunction particles like と to, and copula forms like です desu being treated as clitics or separate words, thus satisfying most of the demands of UD proponents. On the other hand, most 'agglutinative morphemes' attaching to verbs would be treated as affixes, avoiding the less fortunate consequences of discarding the bunsetsu.
http://www.cjvlang.com/Spicks/udjapanese.html

宮岡 (2015) の貢献

日本語 UD の問題は、Pringle (2016) のおかげで、UD 主要開発者の間で認知されている。Nivre の意見は大筋で私と一致するようである。

金山さんは、「食べた」は「食べ」「た」に分割すべきで、その根拠は丁寧の「まし」などを間に挟めることと主張しているが、これには賛同できない。宮岡 (2015) の説くとおり、「た」は屈折接尾辞で、他の屈折接尾辞とともに小さな閉じた集合を構成し、paradigm をなしていると見るべきだろう。「ます」は VV 型の (動詞から動詞を作る) 派生接尾辞。「食べました」の場合は、派生をおえた語基 (base) 「食べます」に屈折接尾辞「た」がついたと解釈できる。

同様に、「かわいさ」の「さ」は VN 型派生接尾辞、「子どもっぽい」の「っぽい」は NV 型の派生接尾辞であり、「かわいさ」、「子供っぽい」はいずれも 1 語。「さ」や「っぽい」は生産的であり、派生後の語を辞書にあらかじめ書いておくわけにはいかない。まずは形態素解析で「かわい-さ」と分割するのが常道だが、係り受け解析を行う前にチャンキングしておく必要がある。

方針はこれで良いとしても、宮尾さんも書いているように、日本の言語学 (国語学) は伝統的に接語と接辞という観点からの区分への関心が薄く、参照できる文献が見当たらないというのが問題だった。服部 (1950) はいくつかの例を示すのみだった。

そこで登場するのが宮岡 (2015)。表 2: 接辞と接語の対照表 (187-189頁) は網羅的に見える。コーパスと対照していないので、どの程度漏れがあるのかわからないけど。個別の事例についても 4、5 章で議論されている。これを土台にすれば、日本語 UD の問題の解決に踏み出せそう。

落穂拾い

『「語」とはなにか・再考』ということで、無印版がある。『「語」とはなにか: エスキモー語から日本語をみる』(2002)。無印版を読んだのはかなり昔。ぼんやりとした記憶をたどると、特に焦点を定めないまま日本語とユピック語を対照していただけだったと思う。宮岡 (2015) が本腰を入れて日本語文法に取り組んでいたのは意外だった。

複統合的なユピック語を長年研究していたら、形態論に関心が向くのは自然な流れ。宮岡 (2015) は語の認定から意味を排除することに力を入れている。統語論も形態論との絡みで必要な場合に限って取り上げている。照応には触れない。当然ながら依存文法への言及もない。

文節との違いで大きいのは、格助詞を接語とすること。根拠は、「男だけが」のように接語「だけ」を挿入できることなど。服部 (1950) も同じ判定だが、服部はさらっと述べているだけなので、注意せず読んでいたら見逃しかねない。「印欧語名詞のような屈折変化あるいは名調の格変化（対格，奪格/生格）とも，日本語の屈折とも，まったく別ものであるのは明らかである」(p.286) ということで、印欧語との比較はするが、アルタイ諸語に言及しない。服部 (1950) は、タタール語の /ɣa～qa/《に、へ》、 /nə/《を》、/ta/《の所に、において》(p.481) を附属形式 (接辞) 扱いしている。この点で、現代日本語は非アルタイ的と言えるかもしれない。モンゴル語やトルコ語の接尾辞は語基の母音調和の影響が及ぶし、いかにも従属的な印象を受ける。満洲語の場合はモンゴル語よりも日本語に近い感じがするが、服部原則を適用すると接辞と判定できそう。

屈折変化する前接語 (enclitic) が通言語的にめずらしく、日本語の特徴のひとつといえるという指摘も、いままで意識したことがなかった。

接語と接辞を区分して、接辞を係り受けの単位から消していくとする。そうすると品詞と素性の大改造が必要となる。UD が印欧語族的な屈折の扱いに引きずられているのだと思うが、屈折接辞には品詞が与えられず、素性で表現されている。日本語処理に慣れていると違和感がある。ともかく、いまの日本語 UD が事実上無視している universal features を使いまくらないといけない。

宮岡 (2015) の提案のうち、UD と衝突しそうなのが、4.6.2 複合法。「語幹間 (+) のところに“助調”その他いかなる語も挿入できない固い結合の複合（1語) にかぎって用いている。」(p.245) とのことだが、判断が揺れそうだし、なんだかんだ言って orthographic words の影響が強い他の言語の UD プロジェクトとも対立しそう。

Pringle (2016) は、意味論をもとに文節を否定する Butler et al. の議論をバッサバッサとなぎ倒している。これを見て思ったのだが、トルコ語の inflectional group (IG) は本当に必要だろうか? IG の必要性を示すとされる例文:

mavi araba-da-ki-ler uyu-yor-lar
青い車-に-いるの-たち寝て-いる-[人称接辞]

この例文では、青い (mavi) のは車 (araba) であって車にいる人たち (-ki-ler) ではない。それを依存構造で明示するために araba-da と -ki-ler に分割し、mavi を araba-da に係らせる。しかし、そもそも -ki は語の外から修飾できるのだろうか? 係ってくる語が必ず araba を修飾するのなら、araba-da-ki-ler をそのまま持っておいても問題なさそう。なるべく意味が透過的な表現を作りたいという気持ちはわからないでもない。形態統語法自体が自立性を持っていて、思考を言語で表現する際には、その様式に従って型どっていくと考えると、言語の形態統語的表現と意味表現にある程度ずれが生じるのはやむを得ないように思う。宮岡 (2015) の執拗な「カタチ」の議論もそういう主張だと理解している。

2017年6月27日追記: スライドにした。Nive がアイヌ語に UD を適用している論文も教えてもらった。アイヌ語は人称を表す形態素が、特に動詞に義務的につくが、これらを一律に接語として扱って係り受けをつけている。

2017年9月13日追記: 読み物として、Haspelmath による研究史の概観 (Non-)universality of word-classes and words: The mid-20th century shift が面白い。学校文法、構造主義、生成文法、類型論をみたとき、構造主義は学校文法の素朴な文法概念から離れて言語ごとの個別主義を打ち出したけど、生成文法は構造主義を忘れて学校文法へ回帰したという話。普遍的とされるものをどうやって普遍的に認定するかを詰めておらず、昔の素朴な概念を使いまわしていると主張する。この説明からすると、我々が UD で困っているのは、生成文法の人が放置してきた問題を拾っているからといえる。Halpelmath は類型論の人なので、生成文法の人には反論がありそうだけど。

Haspelmath (2015). Defining vs. diagnosing linguistic categories: a case study of clitic phenomena. が面白そう。

*1:Unicode と似ている。Unicode のある世界はなかった世界よりも確かに便利になった。とはいえ、Unicode を使うと、各文字が抱える難しい問題が消えてなくなるわけではなく、どこかの段階で処理しないといけないことには変わらない。それどころか、各言語・文字特有の事情を一箇所に集めることで難易度があがる。

*2:教師なし文法獲得に関しても、提案モデルをなるべく多くの言語に適用して性能を測りたいという需要はある。

*3:日本語処理がガラパゴス状態なのは、うちの研究室の責任が大きいという指摘をとある日本語 UD 関係者から受けたことがある。私も問題意識は共有している。

*4:トルコ語の係り受けの単位と inflectional group については 2011 年にこの雑記で取り上げたことがある。

*5:チベット語は膠着的だが、現在のところ UD に入っていない。

2017-04-24

日本語「形成」論

言語本

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)

先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。

日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著者が80歳になる年にモノグラフを上梓した。研究の集大成ではないかと期待されるところ。知りたいのは、魔法の箱たる「混合」の中味。オーストロネシア語族話者がいつ、どの経路で日本に流入し、どのような形態の接触により「混合」が起きたと考えているのか。

実際に読んでみると異常に見通しが悪い。著者の仮説がまとまった形で示されない。結論にあたる章がなく、唐突に本論が終わる。では最初に仮説の全体像が提示されているかというと、第I部の表題は「従来の日本語系統論」。本書に散りばめられた断片的な記述を読者が拾い集めて再構成しなければならない。まとめて示すべき仮説の全体像がそもそも存在しないのかもしれない。だとすると、(1) 証拠を収集、(2) 仮説を提起、(3) 批判に耐え、対立仮説をつぶして確立される、という一連の流れのうち、本書は第1段階に留まっていることになる。

なぜこんなことになっているのか。推測だが、仮説が著者の人格と分かちがたく結びついていて、攻撃されうる要素をなるべく表に出さないように細工した結果ではないか。例えば、まえがきを見ると、いきなり DNA と言語系統を結びつける研究の批判からはじまる。*1 もちろんこの話には前提がある。DNA を見る限り、オーストロネシア語族話者が日本語話者の遺伝子プールに貢献したことを積極的に支持する証拠がない。しかし崎山はその件には触れない。読者としては、別に誰がとなえていても良いので、各種の証拠と整合する仮説が知りたいのだけど。

DNA に触れたので、著者が言及しない文献を挙げてみる。松本克己も単系統の Y-DNA と mtDNA だけを見ていたが、最近の流行りは全ゲノム SNP 解析。データサイズが大きいし、単系統ではなく組み換えがある。現代の沖縄県民 (沖縄、宮古、八重山の3地域) のサンプルの分析を見ると、台湾原住民との関係がまったく認められない。崎山は、オーストロネシア語族話者のなかでも、台湾の住人ではなく、台湾を出た系統が日本に入った可能性を考えている (p.24) が、それでも、まあ厳しいだろう。

とにかく、人類史を解明するための武器としては、DNA は量、質ともに圧倒的。現代人のサンプルだけでもわかることが多いのに、これも昨今流行りの古代 DNA を使えば、過去の状態が直接観測できてしまう。*2 骨形態などはどこかに吹き飛んでしまった。言語史の研究も、この先 DNA の分析に従属していくことになるはず。

全ゲノム SNP を分析すると、人間集団の混合とそのおおよその時期が推定できる。子孫がいずれの言語を受け継いだかはわからない。しかし、少なくとも、人間集団 (特に文字を持たない集団) が、遺伝的痕跡を残さず言語に影響を及ぼすことは考えにくい。インドの Parsi (ゾロアスター教徒) のように遺伝的に孤立していると想定された集団ですら、母系ではインド原住民との混合が見られる。大雑把に言って、全ゲノム SNP で、少なくとも 10% 程度の貢献が認められないようでは、大規模な言語接触の仮説は維持できない。

次は「混合」。第3章が「世界における混合語」という魅力的な表題だが、たった7ページで終わってしまった。原論文 (未見) は21ページあるのに。何が起きたのだろうか。そもそも混合説が支持を得られないのは、「混合」が魔法の箱にとどまっているから。現象を整理して、そこに成り立つ規則性を抽出し、それが日本語の場合にも当てはまることを示す必要がある。*3

一番紙面を割いているのは音変化。オーストロネシア諸語の coda を一律に落として開音節化するのは良いとして、日本語のアクセントに関する議論はよくわからない。語頭音節起源 (1群)、語末音節起源 (2群)、音節全体起源 (3群) に分ける (pp.70-71) が、分岐条件がわからない。関西で1音節名詞が2拍で実現される現象について延々と議論している。これがオーストロネシア語族との関係で何を意味するのかよくわからない。対応については、1群は類聚名義抄体系で低平調 (L(H))*4、2群は名義抄体系で高平調 (H(H)) に対応すると言いたいらしい。仮にこれを受け入れたとしても、この現象を tonogenesis と解釈するのは受け入れがたい。1音節名詞は2種類だけではない。類聚名義抄体系においては、解釈次第だが、1音節名詞は少なくとも3類からなる。残りの H(L) が説明されないまま。さらに Shimabukuro (2007) によれば、本土祖語と日本祖語 (Proto-Japonic) の1音節名詞は4種類からなる。

あとは気づいた細かい話が2つ。1つは隼人。「最も遅く日本列島に到達したオーストロネシア語族は、古墳時代以降の熊襲・隼人であった」(p.232) と主張する。熊襲はそもそも実在が疑われる。隼人も、永山 (2009)によると、「古墳時代の南九州は、中期までは副葬品などの面で全国的傾向と大きく外れることはないが、後期に入ると現在の鹿児島県本土域は地域的独自性が増していく」(p.237)。外来集団の流入を考えずとも、比較的新しい時期の孤立によって説明できそう。「隼人は、七世紀後期、律令体制建設に邁進する政府によって設定された「擬似民族集団」」(pp.237-238) と見るのが妥当。

隼人と同じページの記述。「琉球の古称ウルま「宇流麻」も、ウル島が語源である。異説ではウルを鬱陵島にこじつけるが、地名の語源として地域的一貫性を欠く」(p.232)。私の知る限り、ウルマは知識人がもっぱら和歌で用いた雅称であって古称ではない。もとは藤原公任の和歌に由来し、そこでは鬱陵島を指していた。

*1:明示されていないが、批判の対象は明らかに松本克己。

*2:日本でも 2016 年になって三貫地縄文人の全ゲノム SNP 分析が出た。

*3:去年、類型論のデータを使ってその真似事のようなことをした。

*4:例外的な上昇調「歯」を除く

murawaki の雑記

はてなグループから移転してきました