違法・有害情報の検出技術

「違法・有害情報の検出技術」の話は以前書いた。KDDI 研究所がくだけた表現を正規化する技術を発表したので、これを題材に再び取り上げてみる。

KDDI 研究所を取り上げるのは、例によって具体例があると議論がしやすいから。しかし、発表資料は論文じゃないから詳細が分からない。分からない部分は憶測で話を進める。

第一印象。今回発表された「「くだけた表現」の自動判読技術」は「インターネット上の違法・有害情報検出技術」の要素技術ではない。おそらく提案手法は違法・有害情報検出には役に立たないのだろう。そこで、ブログを対象とする評判分析の前処理に焦点をずらしたのではないか。

そもそも処理の自動化の対象としては、違法・有害情報よりも普通のブログの方が筋が良い。理由は二つ。一つは書き手の隠し方の本気度。ブログ記事は読み手に意図が伝わらなければ意味がない。くだけた表現は、せいぜい毛色の違う人を軽くフィルタリングするぐらいの機能しか持たない。一方、違法・有害情報の書き手は本気で隠す。監視者に見つかったら困るから。人間が本気で情報を伏せようとしたら、計算機は人間よりも馬鹿なので太刀打ちできない。

もう一つは得られるデータの量。統計的手法は往々にして、モデルよりもデータ量がものを言う。そのデータ量がブログと違法・有害情報では桁が違う。違法・有害情報たど、例えば殺人の請け負いが万単位の利用者を擁すコミュニティをなすとは考えにくい。しかも、麻薬のサイトとは全然別の表現が使われていそう。一方、「恋愛・結婚など若い女性が興味のあるカテゴリ」の書き手は、日本語話者のx%というオーダーでいる。ギャル文字などはある意味規範化していて、小さな「方言」が乱立していないのではないか。よく知らないけど。

次。「くだけた表現」とは何か。どこまでを修正対象とするか。どうやら対象は非常に限定されており、slashdot の人たちが想像するようなくだけた表現はほとんど対象外にみえる。

「くだけた表現修正システム」の位置付けは「言語解析器」の前処理。要するに形態素解析よりも前に文字列処理で修正する。修正対象はこの段階で扱えるような表現に限られる。このことは要素技術を見るとはっきりする。

資料には要素技術1として「修正候補の自動取得」が示されているが、実際には次の二つの処理が必要となる。

入力文に対して、修正対象区間を検出
検出された修正対象区間に対して修正候補を列挙

このうち検出が怪しい。具体的な説明が何もないけど。仕方がないので例文から検出の中身を推測する。資料に挙げられている例文は以下 (下線が修正対象区間を表しているのかは不明)。

ゎﾅ=∪も行くょ～
auの携帯ってヵゎいいね
オ●マ大統領来日
できるかどうヵゎ分かりません

例文を見る限り、文字種のレベルでくだけた表現であるのが明らかなものばかり。おそらく簡単なルールで検出しているのだろう。逆に、このレベルで怪しくなければ修正対象として検出されないのではないか。

2010/2/2 追記: この話はちゃんと論文になっていた。Unsupervised Text Normalization Approach for Morphological Analysis of Blog Documents. 検出をどうやっているのかと思ったら、ちゃんとは書いていないけど、形態素解析の未知語を拾っているだけらしい。形態素解析器が未知語と言ったとしても、くだけた表記とは限らないのだが、そこをどう考えているのだろうか。ただし、MeCab に限って言えば、標準で配布されている辞書だと、未知語でも既知語で解釈しがちというバイアスがかかっているようなので、出てくる未知語はくだけた表現が多いかもしれない。

murawaki の雑記

はてなグループから移転してきました

違法・有害情報の検出技術