再び語について - murawaki の雑記

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説明するか。作業中のメモを垂れ流していく方式

syntactic word に対する立場

syntactic word には様々な側面があるが、ここでは morpheme に対して word に特別な地位を認めるという点を考える。要点は、UD の word に対する方針に、理論的に反対の立場が存在するらしいこと。

今回の起点は de Marneffe (LREC2014)。Manning のグループ。前回の記事で確認したように、UD 主要開発者は UD 2.0 を出すまで類型論を認識していなかった。言語処理研究者から見える言語学業界には偏りがある。Manning の昔の論文に LFG のものがあった。おそらくその頃仕入れた知識が de Marneffe (LREC2014) に反映されている。

There is a longstanding, unresolved debate in linguistics between theories which attempt to build up both words and phrases using the same compositional syntactic mechanisms (and in which the notion of a word has minimal privileged existence) versus those theories where the word is a fundamental unit and which see the morphological processes that build up words as fundamentally different from and hidden to those that build up sentences, sometimes termed the lexical integrity principle (Chomsky, 1970; Bresnan and Mchombo, 1995; Aronoff, 2007).

Chomsky (1970) はネットに落ちていたのを斜め読みした限りでは、立場がよくわからない。次の論文は LFG。私は LFG についてほぼ何も知らない。morphology と syntax を区別する formalism だという理解。ある handbook の原稿によると、そこは LFG と HPSG との共通点。

反対に morphology と syntax を区別しない立場。distributed morphology がそういう立場だと伝え聞く。生成文法業界の個別の流派がどうなっているかよくわからないし、ましてや全体像を俯瞰的に把握することもできていない。例えば、最近時々名前を聞く nanosyntax は、morphology よりも細かい単位まで syntax の領域を広げているという理解で良いのだろうか。もっと普通の生成文法系の論文でもword の内部に対して文脈自由文法的な木を作っている例を見かけるが、どういう立場なのか。

日本語の syntactic word

これについては去年の記事に書いたので詳述しない。要点は、

syntactic word の認定は、実質的に affix と clitic を識別する作業となる
- Haspelmath (2011) は、これまでに提案されてきた基準では、通言語的に妥当な概念としての word を認定できないと主張している
服部 (1950) を例外として、syntactic word という観点からの研究は日本の言語学や国語学の主流から外れまくっている
宮岡 (2015) が言語学者としては具体性をともなった日本語の word 認定案を提示している
しかし、もちろん、実際のコーパスアノテーションのための仕様としてはまったく不充分で、かなりの作業が発生することが予想される
通称 Greg 文書のおかげで、現在の日本語 UD が UD の word の方針に従っていないことは UD 主要開発者に認知されている

短単位

『現代日本語書き言葉均衡コーパス』形態論情報規程集第4版 (上) という恐ろしい仕様書に、国語研的な経緯が記されている。

syntactic word の議論とはまったく無関係に規定されている
30年以上の過去の経緯を引き継いで引き返せないところまできている。国語研がその遺産を捨てるとは思えない

脚注3

ここで言う「操作主義的な立場」とは，「これこれこういうものを「～単位」とする，という規定をするだけで，その「～単位」が言語学的にどのようなものなのか，単語なのか，単語でないとすれば，どこが単語とちがうのか，といった問題には，まったくふれない」(国立国語研究所1987:11)という単位設計上の立場を指す。

本文

調査単位の設計に当たって操作主義的な立場を取ってきたのは，「必要以上に学術的な議論に深入りし，実際上の作業がすすまないことをおそれたため」(国立国語研究所1987:12)であり，「学者の数ほどもある「単語」の定義について，まず，意見を一致させてから，というのでは，見とおしがたたない。」(同:12)からである。
このような立場に対しては，当然のことながら「語というのは何なのか，調査のため便宜的に設けられた単位にすぎないのかという問題が残る。」(前田1985:740)という批判がある。確かに，語というものを定義しようとする以上，語とは何かという本質的な議論を積み重ねていくことは重要なことである。しかし，国立国語研究所(1987:12)に，「原則的にただしい定義に達したとしても，それが現実の単位きり作業に役立たないならば，無意味である。語い調査というのは，現象の処理なのだから。」と述べられているように，語彙調査においては対象とする言語資料に現れた個々の事象を，的確に処理することも極めて重要である。このことから，これまでの語彙調査では，語とは何かという本質的な議論よりも，言語現象を的確に処理することを重視してきた。

どうするか: 妥協としての短単位

短単位の採用を擁護するとしたら、どのような論理でそれを行うか。

UD はタスクとして難しい
- 言語の構造的な比較をやってきたのは言語類型論で、そこでは難しい問題が昔から議論されてきたが、UD 開発者がそれを認識しだしたのは最近
- UD 2.0 では類型論の立場からの提言 (Croft, 2017) が一部採用されたが、これで充分とは思えない
- 類型論的に多様な言語が UD に加わるにつれ、UD の不備が明らかになり、仕様に変更が加わると予想
自動変換を主な構築手段とすることには、仕様の変化への対応が容易という利点がある
- 加えて、日本語係り受け自体は既存の資源があるなかで、コーパスを人手で作るという車輪の再発明に避ける人的資源は限られる
- 一方で、自動変換はいろいろ怪しいので、少しは手動でタグづけした方が良いという話も
既存の係り受けコーパスには、syntactic word を自動抽出できるものは存在しない
短単位は syntactic word ではないが、自動変換でできることしかしないという方針を採る限り、一番現実的な単位
問題
- 派生接辞を係り受けで扱うのは気持ち悪い

もし手作業を行うなら

いわゆる自立語は単独で word を構成するとみなす
- 語彙的複合語に対しては UD も妥協している
いわゆる付属語を affix と clitic に手作業で分類する
- ほとんどは辞書項目に対してタグを付与すればよいはず
  - 可能性に基づく品詞体系の品詞の単位でそれが行えるのか、語彙項目ごとの処理になるかは不明
- 曖昧性があり、個別の出現への対応が必要だと現在わかっているのは、「らしい」
  - 「男らしい人」(affix) vs. 「どうやら男らしい」(clitic)

TODO: そもそも UD に取り組む理由

あまり問題点ばかり述べていたら、そもそもなぜやっているのかとツッコまれる。UD に取り組むべき理由も説明しないといけない。

バスに乗り遅れるな論というか、国際的な枠組みから日本語が取り残される可能性
- それを言うと、コーパスのライセンスと入手しやすさも問題
言語間の比較が妥当に行える資源がほしい
- cross-lingual projection とか unsupervised grammar induction とか

2019年6月27日追記: arXiv に投げた。