murawaki の雑記

はてなグループから移転してきました

「はてな」は「果てな」か

せっかくはてなを使っているのだから、研究ネタで「はてな」について語ることにする。

やっていることは、生のテキストから形態素を獲得して辞書に突っ込むという処理を計算機によって自動化すること。形態素という言葉は、言葉の最小単位という意味で使っているが、工学では扱いがいい加減なので、単に単語と思っておけばよい。

形態素の獲得とは、具体的に何をするかというと、境界と品詞の認定。生のテキストはただの文字列なので、獲得したい形態素がその中のどの範囲かを特定しないといけない。これが境界認定。一方品詞は、同じような振る舞いをする形態素をまとめてラベル付けしたもの。品詞体系はあらかじめ人が設計しているので、その中から適当なものを選ぶ。つまり分類問題。分類のための判断材料は、テキスト中の形態素の振る舞い。計算機には意味なんて分からないから、表層的な振る舞いだけで判断することになる。今のところ本当に簡単なことしかやってない。例えば、「が」、「を」、「に」などが後続していれば多分名詞だし、「遊ばない」、「遊びます」、「遊ぶとき」といった風に活用していれば動詞と判定する。

分類問題の常として、どれを割り当てればよいか迷う場合がある。「はてな」もその一つだが、先に別の例を挙げる。

まずは常に複合語の一部として現れる成分の扱い。例えば、「抗酸化」の「抗」は何なのか。日本語文法的には「接頭辞」らしい。漢語としては接頭辞というのは違和感がある。

では「国際」はどうか。名詞なのか。ものの本によれば、「国際」は「国際会議」のような複合語の一部としてしか用いられず、「*国際が」とか「*国際を」とは言わないらしい。代わりに「的」とつけないといけないとのこと。しかし、ググって見ると簡単に例外を見つけられる。例えばこれ。

娘の大親友が、国際を選び、通っています。 

このように「国際」のつく団体の省略として一般の名詞のように使える。計算機は馬鹿だから、この例文を食わせたとき、特殊な用法だなんて気づかない。

そもそもこの記事自体が示すように、すべての言葉はメタに名詞として使える。「抗」とか「国際」とか。ここではメタな用法を括弧によって明示しているけど、誰もがそんなに親切ではない。括弧抜きでも普通に使われる。だから、メタな議論をしているテキストを計算機に食わせたら、何でもかんでも名詞として獲得するかもしれない。

さて、いよいよ「はてな」である。*1はてな」には品詞だけでなく境界も絡んでくる。「はてな」の形態素数はいくつだろうか。

JUMAN に「はてな」単独で与えると、動詞「はてる」の連用形と終助詞「な」として解析される。漢字で書けば「果てな」。語源的にはこれで正しいらしい。しかし、「はて + な」では解析上都合が悪い。question mark の意味で使われるから。もとは括弧付きがふさわしいメタな用法だったのかもしれないが、今は普通名詞として使われている。実際、テキスト中では「はてなが~」や「はてなを~」が普通に使われる。

具体的にどう都合が悪いかというと、終助詞「な」と格助詞「が」、「を」との連接が文法的制約に反する。JUMAN はこの手の制約を絶対的に与えているから、終助詞「な」と格助詞「が」の連接を許さない。おかげで、「な」は名詞「名」あるいは「菜」と解釈される。*2これでは困るので、「はてな」で一つの名詞と扱うべきだということになる。*3

言葉は歴史的に変化していて、その変化はこんな感じで割りと連続的だと思う。しかし、分類問題を解こうとしたら、そこに白黒をつけないといけない。

*1:JUMAN の辞書には「はてな」が登録されていない。IPAdic/NAISTdic には感動詞として登録してある。いまどき「はてな」を感動詞として使うやつがいるとも思えないが。「さっさと登録しろよ JUMAN」というツッコミが来そうだが、基本的にこれ以上の登録はしない方針でやっている。

*2:同じような感じで、「はじめにを~」と与えると「に」が「煮る」になる。MeCab は正しく「格助詞」とみなす。

*3:最近はうちのシステムは「はてな」を獲得できるようになった。獲得しようと思ったら、処理のどこかの段階で、テキスト中のそこに未知語があると気づかないといけないのだが、「はてな」のように解釈が微妙な場合には、システムは割と気づいてくれない。JUMAN は制約の効き過ぎで変な解析結果を返すので、変だと気づきやすいけど、MeCab は利口に振る舞い過ぎて未知語を見つけづらい。