murawaki の雑記

はてなグループから移転してきました

2011-01-01から1年間の記事一覧

Turkish Dependency Parsing

NLP

Gülşen Eryiğit, Joakim Nivre, Kemal Oflazer: Turkish Dependency Parsing, Computational Linguistics, Vol. 34, No. 3, 2008 (PDF).昔論文に関連研究として紹介するためにトルコ語の解析を調べたが、構文解析まわりの議論は没にした。ここに投げ捨て。興…

Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models

NLP

Mark Johnson, Thomas L. Griffiths and Sharon Goldwater (2007) Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models, NIPS 19.最近雑記を書いていない。なぜか。全然新しことをやってないから。この論文も 2006/7…

A Bayesian Mixture Model for PoS Induction Using Multiple Features

NLP

Christos Christodoulopoulos*1; Sharon Goldwater; Mark Steedman: A Bayesian Mixture Model for PoS Induction Using Multiple Features (EMNLP2011) (PDF)(slides).教師なし POS induction。HMM でなく mixture model を使うのが特徴。教師なし POS indu…

続「訓読」論

中村春作ほか編: 続「訓読」論--東アジア漢文世界の形成 (2010)。超久しぶりにアフィる。毎日毎日いろんな文献を読んでいるが、(1) 単行本で (2) 日本語で (3) 流通している本を読むのは久しぶりのような気がする。せっかくなので感想などを書いてみる。 渡…

Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages

Sean Lee and Toshikazu Hasegawa. Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages.柄にもなく今話題のネタを取り上げてみる。日本語の諸方言の語彙を使って系統樹を作ったら、共通祖語の時期が 2182 年前と推定され…

'Race' on the Japanese Internet: Discussing Korea and Koreans on '2-Channeru'

McLelland, MJ, 'Race' on the Japanese Internet: Discussing Korea and Koreans on '2-Channeru', New Media & Society, 10(6), pp. 811-829, 2008.*1ひどい論文の紹介。おまけに私の専門外。世の中にはくだらないものが溢れているわけで、それをいちいち…

满语365句

何荣伟 ed. 满语365句, 辽宁民族出编社, 2009.This book is accompanied by a CD, and Manchu utterances were recited by a Sibe announcer. I am curious about exactly what this language is. She pronounced Manchu spellings rather faithfully. But j…

A Study of the Tacheng Dialect of the Dagur Language

By YU Wonsoo, KWON Jae-il, CHOI Moon-Jeong, SHIN Yong-kwon, BORJIGIN Bayarmend, Luvsandorj BOLD, Seoul University Press, 2008.ソウル大学校出版文化院の Altaic Languages Series の 2 冊目。Materials of Spoken Manchu とあわせて購入。久しぶりに…

NLP2011

NLP

豊橋技科大で開催されていた言語処理学会第17回年次大会 (NLP2011) の参加報告。 単なるメモ。発表の要約ではない。 ポスターはほとんどメモってないので特に適当。 口頭発表は6並列でかぶりまくり。面白そうだけど聞き逃した発表が多い。 NLP なのに (とい…

Indus "Script" Controversy

インダス「文字」が自然言語を表しているか否かという論争。なかでも、言語説を支持する証拠を示したとされる Science 論文をめぐる論争。時系列は以下の通り。 2009年5月の Science にインダス文字言語説を支持する Rao+ の論文 (第一著者 Rajesh Rao のサ…

Dated Corpus (Actually N-grams)

NLP

Baidu ブログ・掲示板時間軸コーパス*1を使って新語 (新用法) の出現時期を求めるテスト。結果は芳しくないけど。時系列コーパスといっても、期間は10年程度。通時言語学の一般的な想定よりもオーダーレベルで短い。時系列コーパスといえば東大喜連川研。定…

Rendering Traditional Mongolian with Pango

Linux (UNIX) 上で縦書きモンゴル文字を表示する方法。現実逃避の成果 (?)。font の仕組みも何もかもわかっていないので、いろいろ調べながら。Linux 上でテキストの rendering を行っているのは pango。現行版はモンゴル文字をサポートしていない。パッチが…