murawaki の雑記

はてなグループから移転してきました

2009-01-01から1年間の記事一覧

くだけた表現の分類

NLP

前回の続き。前回は、提案手法が修正対象とする「くだけた表現」は非常に限定されていると推測した。混乱の原因は「くだけた表現」という表現が misleading なこと。実際に扱っているのは表記の問題だけだから。「くだけた表現」は多岐に渡り、扱うべき解析…

違法・有害情報の検出技術

NLP

「違法・有害情報の検出技術」の話は以前書いた。KDDI 研究所がくだけた表現を正規化する技術を発表したので、これを題材に再び取り上げてみる。KDDI 研究所を取り上げるのは、例によって具体例があると議論がしやすいから。しかし、発表資料は論文じゃない…

解けない曖昧性は候補の列挙にとどめるべき

NLP

日本語の形態素解析について、問題設定が微妙ではないかと思う部分の一つとして、過度の曖昧性の解消を挙げてみる。例から入る。ひらがな表記の動詞「くる」を考える。対応する漢字表記として挙げられるのは「来る」と「繰る」。*1そもそも一般に、和語は広…

終端記号が定義されていない

NLP

終端記号が過不足なく定義されていないというのは、自分の研究の問題設定の説明として思いついた話。ボツになりそうなのでここに載せる。文脈自由文法を考える。自然言語だけでなく、プログラミング言語にも用いられるおなじみの文法。文脈自由文法では導出…

Installing Subversion

今更ながら Subversion をインストールした。いろいろはまったのでその記録。背景。これまで特に問題もなく自分のプログラムを Subversion で管理してきたのだが、以下のエラーを吐いてうんともすんとも言わなくなった。 このクライアントは、作業コピー '.'…

Life with git

最近 home の主だったファイルを git につっこんでデータの同期をとっている。そこそこ快適な git 生活をまとめてみるテスト。目的。マシン間でのデータの共有というか一元化。対象となる計算機は以下。Linux のデスクトップが 2 台。Windows の入ったノート…

アンケートはやりたくないけど人間の語彙学習には興味がある

NLP

語彙の学習について、SocialDict - 英文Webページのスマートな注釈・辞書引きシステムのスライドを眺めていて考えたこと。元スライドとはあまり関係なくなった。発表は、語彙力の推定に他の利用者から得られる手がかりを利用するというもの。実験も、大量の…

Installing Emacs 23.1 on Windows Vista

2012年12月29日追記: 最近は gnupack という便利なパッケージを提供してくれている人がいる。ここの emacs のバイナリを取ってくればコンパイルしなくても動く。とりあえず使いたければこちらがおすすめ。Windows Vista のマシンに Emacs 23.1 を入れた。そ…

Non-Parametric Bayesian Areal Linguistics

NLP

Hal Daumé III: Non-Parametric Bayesian Areal Linguistics , NAACL 2009. (PDF)Areal Linguistics というか linguistic area とは、普通に言う Sprachbund (言語連合) のこと。これを non-parametric Bayes で推定しようと言うのだから正気の沙汰ではない…

Cia-Cia 語のハングル表記がひどい

インドネシアのチアチア (Cia-Cia) 語の表記にハングルが採用されたというニュースが韓国で話題になっていて、AFP にも記事が出ていた。Cia-Cia 語がどんな特徴を持つ言語なのか気になるところだが、韓国のニュースは調べた限りでは全然言及がない。どうやら…

The Empire of the Qara Khitai in Eurasian History

"The Empire of the Qara Khitai in Eurasian History" by Michal Biran気の利いた感想を書くには新情報が多すぎた。契丹の歴史も詳しくないし、ペルシャ語圏はもっと知らない。Juwaynī とかも名前しか把握していない。地名については、Oxus, Jaxartes, Tran…

Unsupervised Morphological Segmentation with Log-Linear Models

NLP

Hoifung Poon, Colin Cherry, and Kristina Toutanova: Unsupervised Morphological Segmentation with Log-Linear Models, NAACL2009. (PDF)NAACL2009 の best paper。また unsupervised word segmentation の論文。表題にあるように、log-linear models を…

Segmentation of Arabic Text

NLP

アラビア語を形態素解析する話は以前からあったけど、真面目に読んだことはなかった。最近の研究に、言語非依存な unsupervised word segmentation の手法の実験にアラビア語を使ったものがあって興味がわいてきた。*1でも、言語非依存な手法の論文は、言語…

Mozilla で properties の key に特殊な文字を使うとはまる

他にも Mozilla でまったのでメモ。今度は stringbundle の properties で key に特殊な文字を使ったら駄目だった。やりたいことは、キーボードの入力を適当な言語の文字に変換すること。この変換テーブルをどうやって記述するか。indicime と同じ様に prope…

XBL と event model ではまる

indicime が動かないならと、日曜 JavaScripter として自分で書いてみる。するとイベントがらみではまったのでメモ。一応は解決。やりたいことは indicime と同じ。add-on が window.addEventListener で keypress イベントを登録。捕捉した keypress イベン…

gfarm memo

gfarm に関するメモ。たまに更新している。 replica の作成 gfarm は replica を自動的に作らない。デフォルトでは 1 ファイル 1 ホスト。replica の作成はコマンド gfrep で明示的に行う。host_list_file に使うノードの一覧を記述して、 gfrep -H host_lis…

Mozilla の add-on で IME を作る

Mozilla の add-on による ime の実装。別に自分で作ったわけではなく、indicime という add-on を調べてわかったこと。indicime はインド系言語を入力するためのパッケージ。といっても文字処理をやるだけ。日本語と違って入力に言語的な知識は必要ないから…

A Bayesian Framework for Word Segmentation: Exploring the Effects of Context

NLP

Sharon Goldwater, Thomas L. Griffiths, and Mark Johnson: A Bayesian framework for word segmentation: Exploring the effects of context, Cognition, 112(1), pp. 21-54. 2009. (PDF)unsupervised word segmentation の論文。unsupervised word segmen…

親子と言ったあなたは誰

締め切りが近付いてくると、現実逃避で妙なことを考えてしまう。今回はそんな話。親子と言ったあなたは誰か。視点はどこにあるのか。「父と母」なら問題ない。ある子供から見て、父であり母である。では「親と子」はどうか。一つの解釈は、自分を視点とした…

隠語を使うならひらがなで短く

NLP

「違法・有害情報の検出技術」の話題。以前専門外の人から質問されたときにうまく答えられなくて、ずっと頭に残っていた。頭の中が整理できていないので、思うところをぽつぽつと書いてみるテスト。どこから始めたものか迷うが、具体例があると議論しやすい…

Perl で dynamic_use

Perl で module をロードするときには、普通 use を使う。use は BEGIN { require Module; Module->import( LIST ); } と等価である。つまり、コードのどこに書いても compile 時に実行される。たとえ if の内側に書いていようが関係なく。普段は use のこの…

清朝の蒙古旗人

清朝の蒙古旗人 その実像と帝国統治における役割 by 村上 信明 (2007).八旗蒙古に属す蒙古旗人を17世紀後半から18世紀後半までの期間を対象に考察した本。著者は前々から外藩関係の官制について何本か論文を書いている。本書は一般向けの digest になってい…

テキストじゃ書き順が分かりにくい

テキストという媒体には様々な制約がある。その制約ゆえに、言語系の論文とか語学の本を読んでいると不便に感じることがある。一番困るのが発音がよく分からないことだけど、意外と書き順も分かりにくいという話。先に発音について。テキストには音声そのも…

ssh-agent と screen と ForwardAgent

ssh-agentをscreenの中から使う方法(NFS,二重ログイン対応版)を使ってきたが、問題があったのでさらに改造。何とも言えないバッドノウハウ。Steps to reproduce: 計算機 A1 で ssh-agent を仕込み、ForwardAgent を yes にして B にログイン。すると $HOME/.…

複合語の扱い

NLP

NAIST Japanese Dictionary の複合語情報が付与されたバージョンが公開されているというので、少し調べてみる。以前からプロジェクトの説明には 形態素解析用辞書 IPADIC の ICOT 条項をクリアするとともに表記ゆれ情報、複合語情報を付与した辞書の公開 と…

「はてな」は「果てな」か

NLP

せっかくはてなを使っているのだから、研究ネタで「はてな」について語ることにする。やっていることは、生のテキストから形態素を獲得して辞書に突っ込むという処理を計算機によって自動化すること。形態素という言葉は、言葉の最小単位という意味で使って…

閉鎖空間に飲み込まれたくない

連休中にウルムチとカシュガルを経由して、その先の某所に行って帰ってきた。*1その時思ったことのメモ。興味があるのはこの地域の言語状態。しかし判断材料が少なくて偏っている。具体的には、実際に会話した人、町の看板、それに本屋の書籍。まずはこれら…

U+0649 の表示

はじめてウイグル語を書いてみたわけだが、手元の環境では表示が正しくない。いろいろ調べたのでメモ。問題は i。initial form や medial form が選択されるべきところで isolated form が表示される。ウイグル語の i に対しては U+0649 ARABIC LETTER ALEF …

Introduction to Modern Uighur

by Hamit A. Zakir, Xinjiang University Press, 2007. ھازىرقى زامان ئۇيغۇر تىلىウルムチの本屋で見つけた語学の本。30元。ウイグル語を英語で説明。この本については、ググってもほとんど情報がない。そもそも Amazon が何も返さない。アフィりたくてもア…

私が老害になるとき

「老害死ね」と心の中でつぶやくとき、自分もそのうち老害扱いされるのだろうと考えたりする。問題は何をもって老害になるかだが、ずっと頭にあるものの一つは携帯世代の存在。具体的な懸念材料もいろいろある。例えば、2ちゃんねるが高年齢化しているとい…