Turkish Dependency Parsing
Gülşen Eryiğit, Joakim Nivre, Kemal Oflazer: Turkish Dependency Parsing, Computational Linguistics, Vol. 34, No. 3, 2008 (PDF).
昔論文に関連研究として紹介するためにトルコ語の解析を調べたが、構文解析まわりの議論は没にした。ここに投げ捨て。
興味があるのは問題設定問題。係り受けをどういう問題と設定するか。特に係り受けの単位をどうするか。日本語を考えるうえで、類型論的共通点が多いトルコ語は参考になる。ちなみに私はトルコ語を勉強したことはない。以下は知ったか状態で書いている。間違っていたら教えてほしい。
背景。そもそも自然言語処理/計算言語学で研究対象となっている言語が偏っている。英語が中心。こんな変な言語である手法が上手くいったとしても、別の言語でもいけるかわからない。最近はやりの中国語も相当いかれた言語。他もヨーロッパ言語が中心。*1係り受けの単位に関する議論は見ない (あったら教えて)。ヨーロッパ言語は特殊。それに気付かず、ヨーロッパ言語向けの設定が世界標準と思い込むと不幸。
ヨーロッパ言語の何が変か。fusional なこと。三単現の -s というやつ。三人称で、単数で、現在形という複数の機能を担っている。そして、一般にある機能を担っている形態素を切り出すのが難しい。ドイツ語の名詞から -e を切り出したとして、それが何の機能を担っているのかと言われても困る。そこで、付属語を切り出す代わりに語形変化表 (paradigm) を作って対処する。*2こういう言語で係り受けの単位を考えると、単語 (分かち書きの単位) をそのまま使おうということになる。解析の際は、単語ごとにあらかじめ語形変化表に展開して持っておけばよい。単語の文法的役割は、「三人称」、「単数」、「現在形」といった feature 列で表現しようということになる。
トルコ語ではそうはいかない。それがこの論文の出発点。トルコ語は膠着語。この論文が単語 (word) と呼んでいるものは、分かち書きの単位。おおよそ日本語の文節に相当する。*3自立語の語根がはじめに来て、次に付属要素*4の列が後続する。*5付属要素は比較的簡単に切り出せるし、一つの要素は一つの機能を担う。複数の要素が比較的自由に接続するから、あらかじめ展開して持っておくのは現実的でない。「トルコ語で単語単位の係り受けをやる」と言ったとき、日本人が想像するものとかなり違うのではないか。
論文の例*6 arabanızda。araba が名詞「車」。-nız が人称接尾辞で「あなたたちの」、-da が位格。全体で「あなたたちの車に」。トルコ語で日本語と違う点は、いろんな場面で人称接尾辞を義務的に付けること。agreement もある。şirketin arabası は、şirket-in (会社-の) araba-sı (車 ← その)。-sı が先行する şirket と agree している。ヨーロッパ系の論文を読むと、こいつら本当に agreement が好きだなと思うが、たぶんトルコ人も好きなのだろう。*7
論文では、arabanızda が araba+Noun+A3sg+P2pl+Loc と解析されている。+A3sg は、araba が三人称単数で agree すること、+P2pl は -nız が二人称複数の人称接尾辞なので、二人称複数に修飾されうること、+Loc は -da が位格ということを表している。*8
さて、係り受けを考える。要領は日本語と同じ。ある単語 (~= 文節) に注目したとき、考えるべき文法的性質は二つ。
- どんな種類の文節に係るか
- どんな種類の文節に係られるか
「どんな種類の文節に係るか」は基本的に付属語が決める。arabanızda の場合、位格 -da を支配する要素に係る。*9「どんな種類の文節に係られるか」は基本的に自立語が決める。arabanızda の場合、名詞 araba を修飾する、つまりは連体要素。形容詞とか。
ちょっと考えないといけないのは、付属要素によってこうした性質が代わること。論文の例は、arabanızdaydı ( (それ/彼/彼女は) あなたたちの車にあった/いた)。私の感覚では、-ydı は過去の copula。この論文的には、全体として派生動詞になったという扱い。とにかく、-ydı が付いた結果、主語となる名詞がこの単語 (~= 文節) に係りうることになった。araba が連体要素を取るのは元のまま。
この現象に対応するために、この論文は、単語を分割して IG (inflectional group) というものを認定している。arabanızdaydı は二つの IG、arabanızda と ydı に分割される。その上で、IG 単位で係り受けを考える。連体要素が係るのは arabanızda で、主語となる名詞が係るのは ydı とみなす。単語内では機械的に隣の IG に係る。
単語内の最後の IG が別の単語 (の IG) に係る。図1の duran (立っている) は動詞語根 dur と、連体修飾の -an からなる。IG 的にも dur と -an の二つ。係り先は -an が決める。例の場合は名詞 kız (少女) に係っている。
注意が必要なのは、係り受けの性質を変えない限り IG を立てないこと。öğrencilerin は öğrenci (学生)、-ler (複数の接尾辞)、-in (属格) の3形態素からなるが、一つの IG。名詞に付いて名詞のままの -ler に独立の IG は立てない。別に形態素単位で係り受けを考えているわけではない。
日本語の例をこしらえてみる。「彼女-ら-の」は IG 1 個。「美し-さ」は「美し」と「さ」の IG 2 個。「彼女らの美しさ」では、IG「彼女-ら-の」はIG「さ」に係る。もう少し長い例。「遊ば-れ-にく-さ-に」は多分「遊ば-れ」「にく」「さ-に」の 3 IG。動詞に付いて動詞のままの「れる」に独立の IG は立てない。形容詞化させる「にくい」には IG が必要だろう。
論文は IG を立てるモデルを単語単位のモデルと比較して、前者が優れていると主張する。とは言っても、精度は 7 割代でまだまだ。IG を立てるのが本質的にすばらしいかと言うと、そんな気もしない。文法的制約をどんな風に整理するかという趣味の問題。だいたい動詞接尾辞 -an に IG を立てる必要が本当にあるのか。-an に係る要素なんてなさそう。他にも、akıllısı (賢いの (は)) を名詞 akıl (知恵)、出名形容詞派生接尾辞 -lı (~のある)、人称接尾辞 -sı (← その、agreement あり。この場合は主題化の役割を果たしている) の IG 3 個に分解した上で、en (もっとも) が -lı に係るとしている。しかし、この場合、akıl が要素を取ることはあり得るのか? もしないのなら、akıllı をまとめて、連用要素に修飾されうるという feature を立てればすみそう。語彙的選好を考えるうえでも、akıllı とした方が良さそう。文法ができるのは、候補の絞り込みまでで、最終的に係り受けを特定するには語彙的選好が必要だろうから。
そういう訳で、IG を瑣末な問題として無視する。そうすると、トルコ語の係り受けは、単語 (~= 文節) 単位で行なっていることになる。驚くようなことはない。膠着語ゆえに、なまじ付属要素が分析的に切り出せてしまうばかりに、それらをどう処理しようかと悩んでしまう。もう一度自立語に引っ付けてしまえばいいのである。
*1:もっとも、チェコ語は係り受けが交差して大変だという議論があったりするので、そこまで業界が不健全な状態というわけではない。とはいえ、係り受けの交差は英語でも無視できない程度に発生する。真に英語で問題にならない現象が、どの程度業界で重視されているか怪しい。
*2:ラテン語などは気違いじみている。例えば、形容詞の場合、格が6種類、性が男性、女性、中性の3種類、それぞれに単複があって、計36セルからなる活用表を覚えないといけない。
*3:ただし、複合語の扱いが違う。自立語列は分かち書きされる。京大コーパス系の用語で言うと、基本句が近い。一部の人が言う「IME 文節」にあたるはず。よく知らないけど。
*4:ここでは適当に接尾辞と呼ぶことにする。用語として正しいかは怪しい。服部四郎の「附属語と附属形式」の議論を読まないといけない気がする。
*5:モンゴル語や満洲語と同じなら、少なくとも固有語では接頭辞はないはず。
*7:同じアルタイ系でも、モンゴル語や満洲語は agreement がない。チュルク諸語なら、東方のウイグル語でも agreement がある。
*8:詳しい話は、treebank 設計に関する論文に書いてある。
*9:日本語であれば、連用修飾と考えればよい。トルコ語の場合は、名詞が属格以外の格を支配することがそこそこあると聞いたことがある。-da の係り先も用言とは限らないのだと思う。