NLP
前回の続き。前回は、提案手法が修正対象とする「くだけた表現」は非常に限定されていると推測した。混乱の原因は「くだけた表現」という表現が misleading なこと。実際に扱っているのは表記の問題だけだから。「くだけた表現」は多岐に渡り、扱うべき解析…
「違法・有害情報の検出技術」の話は以前書いた。KDDI 研究所がくだけた表現を正規化する技術を発表したので、これを題材に再び取り上げてみる。KDDI 研究所を取り上げるのは、例によって具体例があると議論がしやすいから。しかし、発表資料は論文じゃない…
日本語の形態素解析について、問題設定が微妙ではないかと思う部分の一つとして、過度の曖昧性の解消を挙げてみる。例から入る。ひらがな表記の動詞「くる」を考える。対応する漢字表記として挙げられるのは「来る」と「繰る」。*1そもそも一般に、和語は広…
終端記号が過不足なく定義されていないというのは、自分の研究の問題設定の説明として思いついた話。ボツになりそうなのでここに載せる。文脈自由文法を考える。自然言語だけでなく、プログラミング言語にも用いられるおなじみの文法。文脈自由文法では導出…
語彙の学習について、SocialDict - 英文Webページのスマートな注釈・辞書引きシステムのスライドを眺めていて考えたこと。元スライドとはあまり関係なくなった。発表は、語彙力の推定に他の利用者から得られる手がかりを利用するというもの。実験も、大量の…
Hal Daumé III: Non-Parametric Bayesian Areal Linguistics , NAACL 2009. (PDF)Areal Linguistics というか linguistic area とは、普通に言う Sprachbund (言語連合) のこと。これを non-parametric Bayes で推定しようと言うのだから正気の沙汰ではない…
Hoifung Poon, Colin Cherry, and Kristina Toutanova: Unsupervised Morphological Segmentation with Log-Linear Models, NAACL2009. (PDF)NAACL2009 の best paper。また unsupervised word segmentation の論文。表題にあるように、log-linear models を…
アラビア語を形態素解析する話は以前からあったけど、真面目に読んだことはなかった。最近の研究に、言語非依存な unsupervised word segmentation の手法の実験にアラビア語を使ったものがあって興味がわいてきた。*1でも、言語非依存な手法の論文は、言語…
Sharon Goldwater, Thomas L. Griffiths, and Mark Johnson: A Bayesian framework for word segmentation: Exploring the effects of context, Cognition, 112(1), pp. 21-54. 2009. (PDF)unsupervised word segmentation の論文。unsupervised word segmen…
「違法・有害情報の検出技術」の話題。以前専門外の人から質問されたときにうまく答えられなくて、ずっと頭に残っていた。頭の中が整理できていないので、思うところをぽつぽつと書いてみるテスト。どこから始めたものか迷うが、具体例があると議論しやすい…
NAIST Japanese Dictionary の複合語情報が付与されたバージョンが公開されているというので、少し調べてみる。以前からプロジェクトの説明には 形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書の公開 と…
せっかくはてなを使っているのだから、研究ネタで「はてな」について語ることにする。やっていることは、生のテキストから形態素を獲得して辞書に突っ込むという処理を計算機によって自動化すること。形態素という言葉は、言葉の最小単位という意味で使って…
形態素解析器 MeCab の出力を JUMAN の Perl モジュールに食わせてみるテスト。ちょっとした実験が目的で作ったが、ぱっとしない結果だったので、やっつけ処理のまま放置されてるコード。意味もなくさらしてみる。 use JMecab; my $jmecab = JMecab->new(dic…