murawaki の雑記

はてなグループから移転してきました

Universal Dependencies と類型論

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。

Universal Dependencies (UD) は通言語的に一貫した係り受け木を設計して、世界中の言語の treebank を作るプロジェクト。通言語的という点で言語類型論との関わりの深さは明らかなように思える。しかし、UD の主要開発者が当初からそれを認識していたようには見えない。彼らがいつからどのように関係を認識したのか。現状はどうなっているのか。そして今後どうなるのか。

Nivre

UD の代表は Joakim Nivre。transition-based parsing で有名な人。この人を調査の起点にする。

COLING 2016 の invited talk は直接聞いた。意表を突かれたことを覚えている。あの William Croft が Linguistic Typology Meets Universal Dependencies という論文を発表する予定だという話が出たので。

しかし Croft への言及があった文脈は function head 対 content head*1という係り受けの設計方針について。Croft が content head を採用するという UD の方針に賛成しているという。それ以上の議論はなかった。

もう一つ、Nivre は Manning's Law を紹介しているが、このなかに類型論への言及がある。Manning's Law は、呉越同舟ななかでバランスを取りましょうという以上のことを言っているわけではない。6 つある項目の 2 番目が類型論への言及。

UD needs to be good for linguistic typology, i.e., providing a suitable basis for bringing out cross-linguistic parallelism across languages and language families.

しかし、いつ Chris Manning がこの見解を最初に述べたのかわからない。

RANLP 2017 の invited talk では、類型論への言及が増えている。William Croft に加えて、Martin Haspelmath の Comparative Concepts and Descriptive Categories in Crosslinguistic Studies (2010) を引用している。この論文は重要なのであとで振り返る。

github の issue を見ると、2016 年後半に Will Croft への言及が見られる。例えば Manning の 11 月 22 日のコメント:

BTW, there's been quite a bit of conversation off-GitHub between me, @jnivre and Bill Croft on how to define core vs. obl and subj/obj/iobj in the most typologically good way (though nothing is water-tight)

さて、今度は逆にさかのぼってみる。LREC 2016 の Universal Dependencies v1: A Multilingual Treebank Collection の時点では typology への言及がほぼない。"typologically different languages" という表現が一回出現するだけ。参考文献を見ても類型論色がない。

UD の諸母体

UD は既存のプロジェクトを統合する形ではじまった。LREC 2016 の論文が言及しているように、Universal Stanford Dependencies, Google の Universal Dependency Treebanks, Google の universal part-of-speech tags, Zeman らの tagset など。

Zeman et al. Reusable Tagset Conversion Using Tagset Drivers. (LREC 2008) は POS tag と feature について議論している。別々に設計された複数の tagset を統一体系に変換するが、その際になるべく情報を失わないようにしようというだけ。typology という単語すら出てこない。

Zeman et al. HamleDT: To Parse or Not to Parse?. (LREC 2012) も typology への言及がない。複数の既存の treebank をいい感じに変換しようという以上の設計思想はないように見える。

de Marneffe et al. Universal Stanford Dependencies: A cross-linguistic typology. (LREC 2014) は Manning のグループの論文。表題に typology とあるが、どういう意図でそうしたのかよくわからない。個別の現象の議論はあるが、背後にある設計思想の説明がとぼしい。typology の論文は引用されていない。Chomskyan な文献と LFG への言及があるだけで、functional な類型論が認識されているように見えない。

McDonald et al. Universal Dependency Annotation for Multilingual Parsing. (ACL 2013) は Google の project。typology という語は出てくるが、いろんな言語を対象とするという以上の意味は見いだせない。

Petrov et al. A Universal Part-of-Speech Tagset. (LREC 2012) は Google の POS tagset。この論文も本文に typology という語は出てこないが、universal を議論する過程でかすっている。universal な category の存在を支持するものとして Carnie (2002) と Newmeyer (2005) を引いている。いずれも生成文法系。類型論は Chomskyan や句構造文法系の研究とは溝が深そうだけど。反対に universal 懐疑派の例として Evans and Levinson (2009) を引いている。しかし結論が以下なので、論文を飾る以上の積極的な意味はなさそう。

we took a pragmatic approach during the design of the universal POS tagset and focused our attention on the POS categories that we expect to be most useful (and necessary) for users of POS taggers.

ざっとこんな感じ。UD 以前に類型論の研究が認知されていた形跡はない。UD 1.0 時代もそれは同じ。UD 2.0 にする際に類型論を認識し始めた、あるいは類型論を認識し始めた結果として改訂版を作ったというところか。

Croft (2017ab)

Croft (2017a). Linguistic typology meets Universal Dependencies を見ると、UD 2.0 になるときに Croft の意見が一部反映され、残りは反映されなかったらしい。これは github の issue の諸コメントとも整合する。

改めて UD の構成要素を考えると以下の 5 種類が挙げられる。

  • 語の単位
  • 語の POS tag
  • 語の feature
  • 係り受けの設計方針 (content head, coordination の扱いなど)
  • 係り受けの label

Croft の議論の対象は係り受けの方針と label。方針は abstract にある通り。

dependencies should be based primarily on universal construction types over language-specific strategies. syntactic dependency labels should match lexical feature names for the same function; dependencies should be based on the information packaging function of constructions, not lexical semantic types; and dependencies should keep distinct the "ranks" of the functional dependency tree.

construction と strategy という 2 つの概念を導入し、両者を区別している。construction は意味・機能を捉えたもので、通言語的に定義できるとする。strategy は construction を実現する具体的な形態統語的手段を指す。例えば、predicate nominal construction という通言語的な construction が設定できる。英語は copula strategy を使う。論文では言及されていないが、ロシア語は copula なしの strategy を使う。両者を統一的に扱うには、content head の係り受けを採用すると良い。それだけなら、ロシア語は良いとして、英語の copula が迷子になる。そこで common strategy にも label を与える必要がある。*2

Of course, elements in a universal scheme that represent strategies, at least the most commonly occurring strategies, will also be needed.

論文後半では information packaging という観点からの label の体系化を試みている。UD 2.0 ではこの提案はほぼ無視されている。ヨーロッパでは馴染みのない概念だからか。

construction を優先するということは、形式と意味の等価性を軽視するということ。言語特有の下位範疇を特別に用意しない限り、各言語特有の形式と意味との関係は一般に失われてしまう。言語間で比較可能にするには仕方がないか。

Using typology to develop guidelines for Universal Dependencies は NoDaLiDa Workshop on Universal Dependencies (2017) の invited talk の extended abstract。Croft (2017a) よりも個別具体的な現象を議論していて面白い。最初の方で、

There are different and more difficult issues in the POS tagging and morphological feature tagging of the UD enterprise, which I will not go into here.

と断っている。POS tag と feature の方が難しいという認識は興味深い。

Haspelmath (2010)

Martin Haspelmath. 2010. Comparative concepts and descriptive categories in crosslinguistic studies. Language (86).

類型論の研究でよく問題となるのは比較の妥当性。ある言語のある現象と別の言語のある現象を比較するとして、はたしてその比較は妥当といえるのか? この問題をつきつめると Haspelmath (2010) ができあがる。

Haspelmath (2010) は 記述範疇 (descriptive category) と比較概念 (comparative concept) を区別する必要性を論じる。比較に使うのは後者。係り受け label もそうだが、Croft が触れなかった POS tagset にも関わる議論。

記述範疇は言語特有の範疇。比較概念は言語間比較のための概念。両者は別。比較概念は言語に依存しない conceptual-semantic concept, general formal concept, other comparative concept によって組み立てないといけない。general formal concept の例として Haspelmath が挙げているのは precede, identical, overt。ここまで来るとたしかに言語依存性はない。

5 節でいろいろ例を挙げている。例えば 5.2 で Future Tense を以下のように定義する。

A future tense is a grammatical marker associated with the verb that has future time reference as one prominent meaning.

future time reference は conceptual-semantic concept, verb は comparative concept、grammatical marker も comparative concept。associated with と prominent が曖昧なので明確化する必要があると述べる。tomorrow のような副詞を対象から外すには、grammatical marker のような comparative concept を使わざるを得ない。

スペイン語の future tense は probability を表すが、habituability を含まず、(Haspelmath の専門の) レズギ語は反対に habituality を含むが probability は表さない。このように future tense と言われるものの機能は言語によって異なる。Haspelmath の比較概念は、定義にある future time reference を行うための grammatical marker であれば、機能の範囲の違いを無視して対象とする。結果として、各言語の体系を無視して比較のために一部を切り取るような操作を行うことになる。category ではなく concept だと言っているのはそれが理由だろう。

一方 universal dependencies で付与される品詞と係り受け label は全体を区分けしてくという意味で範疇。*3しかし Haspelmath が言う通り、範疇は厳密には言語間で比較できない。

Descriptive formal categories cannot be equated across languages because the criteria for category-assignment are different from language to language.

要するに、ある言語の VERB と別の言語の VERB は厳密には比較可能でないし、これは本質的な問題なので、今後比較可能になることもないだろう。結局のところ UD が何を行っているのかは曖昧なまま。

*1:syntactic head と semantic head とも言う

*2:議論がややこしいが、結論としては cxp を与えるらしい。UD 2.0 にはこの label は採用されず、cop を使う。

*3:feature が範疇と言えるかは微妙。