Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.物理屋さんによる言語の論文。先月、物理屋さんの研究会で…
Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).ここしばらく連続して雑記に言語ネタを投下してき…
Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss に…
Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).類型論の特徴量がどのように時間変化するかに最近取り組んでい…
Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.音変化を統計的…
かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であ…
前回に引き続き、わからないという現状認識を書き残しておく。Wiktionary は失敗が約束されていると思ってきた。昔の記録を漁ると、2007 年には某所でそんな発言をしていた。しかし、2014 年現在、そこそこ何とかなってるっぽい。なぜだろうか。そもそも現状…
良い機会なので翻訳に関する疑問を書いてみる。*1そもそも翻訳を生業としない人間が翻訳する動機がわからない。*2動機がわからないからことには、翻訳に関する生態系の作り方もわからない。自分で翻訳するのをやめて久しい。だが高校生の頃はやっていた。OSS…
時間が経ったが、アイヌ語諸方言の系統樹の話の続き。系統樹の代わりに等語線 (isogloss) を引いてみる。問題意識。方言群を系統樹で解釈するのは無理がある。接触による語彙伝播で説明するほうが良さそう。ではどうするか。ひとまず簡単に作れる別の表現を…
Mark A. Sicoli and Gary Holton. Linguistic Phylogenies Support Back-Migration from Beringia to Asia. PLOS ONE, 2014.要約。Dene–Yeniseian の系統樹を作ってみたら、Na–Dene と Yeniseian が最初に分岐する木はいまひとつだった。Na–Dene 側が沿岸と…
Sean Lee, Toshikazu Hasegawa. Evolution of the Ainu Language in Space and Time, PLOS ONE, 2013.著者は以前日本語諸方言に系統樹モデルを適用していた人。論文公開直後に見つけてつぶやいた。 window.twttr = (function(d, s, id) { var js, fjs = d.ge…
世の中のいろんなものがネット上に移行して記録されるようになった結果、何がどう起きたかを後から*1分析できる場合が増えてきた。今回はそういう話。これから色々御託を並べる。けど結局やったことはローテク。ちゃんとした話ならちゃんとした場所で発表す…
黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。以前は研究室のページに置いていたもの。長く放置していて内容的に古くなっていたが、最近になって突然晒された。*1文書に日付を入れていなかったのが敗因。この機会に雑記に移すことにし…
表題は某日記から拝借。計算機に自然言語を扱わせるうえで、意味を理解させるというのが大きな目標。しかしこの目標は漠然としている。何が達成できたら意味を理解したことになるのか分からない。いろんな人がいろんな方向から攻めている。適当に洗い出す。…
Alexandre Bouchard-Côté et al. Randomized Pruning: Efficiently Calculating Expectations in Large Dynamic Programs. NIPS 2009. (pdf)時間があいてしまったが、前回と同じ話題。sampling 時に pruning を行う手法。前回はいずれも slice sampling に基…
Markov chain Monte Carlo による sampling 時に pruning したい。そのために slice sampling を使う手法。何年遅れて人のあと追いかけてるんだって話だが、細かい話題がいろいろあるので書き出してみる。 slice sampling slice sampling 自体は (Neal, 2003…
モンゴル語と日本語は類型論的に似てるという話は何度かしてきた。*1モンゴル語はたいていの場合、語順をひっくり返すことなく日本語に翻訳できる。そうは言っても、ある事柄を自然に説明する2つの表現が同じ語順であるとは限らない。語順をひっくり返した方…
Bouchard-Côté et al. Automated reconstruction of ancient languages using probabilistic models of sound change, PNAS, 2013.言語系統樹と、系統樹の葉にあたる現代語が持つ語彙の語形を与えたとき、祖語の語形を自動推定する。オーストロネシア語族に…
年明け一発目から昔話。2010年夏に2ヶ月半ほど Silicon Valley の某企業でインターンをやった。事務手続きについてメモっておいたのだが、7割ぐらい完成した草稿をずっと放置してきた。椀屋さんが J1 VISA 取得手続きについてまとめているのを読んで、草稿の…
Dahua Lin, Eric Grimson, John Fisher. Construction of Dependent Dirichlet Processes based on Poisson Processes, NIPS 2010 (PDF, supplementary, videolectures, code).NIPS 2010 の best student paper。理解度は 2 割ぐらい。videolectures にあが…
お仕事に関わるイベントで東浩紀氏の「一般意志 2.0 データ民主主義の可能性と限界 」という招待講演を聞いた。感想などを書く。話自体は streaming などで以前から聞いていた。調べたら去年3月付のメモ書き状態の草稿が残っていた。この機会を逃すと二度と…
Bouckaert et al. 2012. Mapping the Origins and Expansion of the Indo-European Language Family 印欧語族アナトリア起源説をとなえるグループが新たに出した Science の論文。このグループは以前から同源語 (cognate) を使った系統樹の推定を行なってき…
Moriyo Shimabukuro, The Accentual History of The Japanese and Ryukyuan Languages: A Reconstruction, Global Oriental, 2007.*1表題が要点を押さえて簡潔。琉球諸方言を中心にとしたアクセントの通時的な研究。最終的には日本語祖語 (Proto-Japonic) の…
Gertraude Roth Li, Manchu: A Textbook for Reading Documents, University of Hawaii Press, 2000. Notes p.88, Notes 2: erei da sekiyen mafa gebu Paihanpar. As noted by the arthor, this sentence has a topic-comment structure. Is Manchu a topic…
広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。 1X 年ぶりに山陽新幹線に乗った。みずほとさくらを確認したかったがかなわず せっかく広島に来たのに路面電車にも乗らずじまい 広島市立大学は山の中。でも山をトンネルで…
満洲語を和訳するとき、擬古文で訳せばあたると歴史系の人はよくいう。うろ覚えだけど今西春秋あたりがそう書いていたはず。それがどうしてか真面目に考えたことがなかった。擬古文だと訳しやすい構文は何なのかと考えていて、動詞連体形がそのまま別の動詞…
Gülşen Eryiğit, Joakim Nivre, Kemal Oflazer: Turkish Dependency Parsing, Computational Linguistics, Vol. 34, No. 3, 2008 (PDF).昔論文に関連研究として紹介するためにトルコ語の解析を調べたが、構文解析まわりの議論は没にした。ここに投げ捨て。興…
Mark Johnson, Thomas L. Griffiths and Sharon Goldwater (2007) Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models, NIPS 19.最近雑記を書いていない。なぜか。全然新しことをやってないから。この論文も 2006/7…
Christos Christodoulopoulos*1; Sharon Goldwater; Mark Steedman: A Bayesian Mixture Model for PoS Induction Using Multiple Features (EMNLP2011) (PDF)(slides).教師なし POS induction。HMM でなく mixture model を使うのが特徴。教師なし POS indu…
中村春作ほか編: 続「訓読」論--東アジア漢文世界の形成 (2010)。超久しぶりにアフィる。毎日毎日いろんな文献を読んでいるが、(1) 単行本で (2) 日本語で (3) 流通している本を読むのは久しぶりのような気がする。せっかくなので感想などを書いてみる。 渡…