複合語の扱い
NAIST Japanese Dictionary の複合語情報が付与されたバージョンが公開されているというので、少し調べてみる。
以前からプロジェクトの説明には
形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書の公開
とあったけど、以前調べた version 0.4.1 preview1 では付与されてなかった。内部的には以前から付与されていて、単に公開されてなかっただけらしい。
2009年5月21日現在、ChaSen 版はなく、MeCab 用の辞書だけが公開されている。これは活用を展開して CSV 形式にしたもの。計算機に食わせるならこの形式で良いとしても、人間が読むにはつらい。
ざっと見たところ、動詞や形容詞として登録されているものを要素に分解している。複合語にも色んな種類があるが、今回対象とする複合語は、今の私の興味とずれている。分解のパターンとしては、「相手取る」のように「名詞 + 用言」型や、「追い落とす」のような「動詞 + 動詞」の複合動詞が多い。3要素以上のものもある。
そもそも何故これらが1形態素として登録されているのかという疑問が出てくる。JUMAN の辞書の歴史的経緯からすると、かつて EDR が複合語を1形態素として登録しまくったらしいので、その路線を引き継いでいるのかもしれない。
上記の疑問はもっと一般的。どういう基準で形態素の単位を認定しているのか。以前それなりに情報を探したが、驚くほど誰も基準を説明していない。元祖の『EDR電子化辞書仕様説明書』は何も言わない。JUMAN のマニュアルにも書いてないし、『基礎日本語文法』も基準を示さない。NAIST-dic にはマニュアルが見当たらないが、元になった IPAdic のマニュアル も何も触れない。ただし、最近だと『『現代日本語書き言葉均衡コーパス』形態論情報規程集』にコーパス作成用の複雑な基準が記述されているし、UniDic は単位認定もまじめにやる方針らしい。
単位認定について、言語学から言えることがあるかもしれないが、工学としてやっていると、もっと実際的な問題に取り組まなければならない。つまり、ある単位で言葉を登録した辞書を使って処理をしたとき、何がうれしいか。あるいは何が困るか。
単位認定の評価方法としてよくあるのは、情報検索に応用したときの性能。具体的には、形態素単位で indexing 時に複合語を分割するか否かで、欲しい文書の見つけやすさが変わるか。再現率を考えると細かく分割した方が良いが、適合率との兼ね合いもある。ランキングまで考えるとどうなるか予想できない。そもそも今回対象としているのは用言だが、用言が今の検索エンジンでどの程度重要なのだろうか。
直接辞書を使うのは形態素解析。形態素解析で困ることといえば解析誤り。つまり、構成要素を個々に登録していると解析を誤るから複合語を1形態素として登録しておくというやっつけ処理。しかし、用言に関しては解析精度にそれほど差がでるとは思えない。この理由での登録はまずないはず。*1
最近の JUMAN 辞書の整備方針では、反対に、構成要素だけを登録していても解析誤らない場合は削除候補となる。ただし、語彙数を減らすことに言語学的な裏づけがあるわけではない。もっと実際的な理由。最近、基本語彙に人手でいろんな意味情報を付与しようとしている。このとき、語彙数が多すぎると作業量が増大して困るという理由。
しかし、その JUMAN でも、複合動詞は未整理となっている。おそらく上位の構文解析に影響があるから。構文解析をやる KNP では、動詞がどういう格 (「が」「を」「に」など) を支配し、格要素にどのような名詞が入るかという語彙知識 (格フレーム) を利用する。この際、複合動詞のどの部分が格を支配するかが問題となる。*2
複合動詞の分類方法には、統合的か語彙的かがある。統語的複合動詞は、JUMAN では1形態素扱いしない方針。例えば、「暴れまくる」は「暴れる」、「読みなおす」は「読む」と格フレームに大きな違いはないと思われる。だから、これらは登録されていない。NAIST-dic にはあるけど。その代わり、「まくる」や「なおす」に「付属動詞候補(基本)」という意味情報を与えてある。KNP は、文節をチャンクするときに、この意味情報を見て複合動詞をまとめる。格解析では「暴れる」「読む」とみなして格フレームを引く。
問題は語彙的複合動詞。意味の中心がどこにあるか。例えば、「言いよどむ」は「言う」ことの一種。「盗み見る」は「見る」こと。「溢れ出る」はどちらとも言えない。こういうものは、JUMAN でもほとんどが NAIST-dic と同様に1形態素扱いされている。ただし「盗み見る」は登録されていない。一般の連用修飾扱いとなり、格解析時に「盗む」と「見る」が格を取り合う。試しに「Xを盗み見る」の X にいろいろ入れて格解析してみると、「人」なら「見る」に、「鞄」なら「盗む」に係った。これは微妙だ。
「名詞 + 用言」型は、扱い方を把握していない。抱合と紙一重という話があったりして、ちゃんと調べれば面白いと思う。
現在のところテキスト処理しか頭にないが、複合語の特徴の一つにアクセント変化がある。これを工学的に扱う機会はあるのだろうか。今の音声認識は全然アクセントを考慮していない。曖昧性の解消にアクセントはあまり役に立たない。音声合成なら、真面目にやろうと思ったらアクセント情報が必要だろう。でも、周りに音声合成をやっている人がいないから実情がわからない。