murawaki の雑記

はてなグループから移転してきました

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).ここしばらく連続して雑記に言語ネタを投下してき…

Rate of language evolution is affected by population size

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss に…

Evolved structure of language shows lineage-specific trends in word-order universals

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).類型論の特徴量がどのように時間変化するかに最近取り組んでい…

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.音変化を統計的…

対人行動の普遍性と個別性

かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であ…

Wiktionary がうまくいってたまるか

前回に引き続き、わからないという現状認識を書き残しておく。Wiktionary は失敗が約束されていると思ってきた。昔の記録を漁ると、2007 年には某所でそんな発言をしていた。しかし、2014 年現在、そこそこ何とかなってるっぽい。なぜだろうか。そもそも現状…

翻訳する動機がわからない

良い機会なので翻訳に関する疑問を書いてみる。*1そもそも翻訳を生業としない人間が翻訳する動機がわからない。*2動機がわからないからことには、翻訳に関する生態系の作り方もわからない。自分で翻訳するのをやめて久しい。だが高校生の頃はやっていた。OSS…

方言等語線

時間が経ったが、アイヌ語諸方言の系統樹の話の続き。系統樹の代わりに等語線 (isogloss) を引いてみる。問題意識。方言群を系統樹で解釈するのは無理がある。接触による語彙伝播で説明するほうが良さそう。ではどうするか。ひとまず簡単に作れる別の表現を…

Linguistic Phylogenies Support Back-Migration from Beringia to Asia

Mark A. Sicoli and Gary Holton. Linguistic Phylogenies Support Back-Migration from Beringia to Asia. PLOS ONE, 2014.要約。Dene–Yeniseian の系統樹を作ってみたら、Na–Dene と Yeniseian が最初に分岐する木はいまひとつだった。Na–Dene 側が沿岸と…

Evolution of the Ainu Language in Space and Time

Sean Lee, Toshikazu Hasegawa. Evolution of the Ainu Language in Space and Time, PLOS ONE, 2013.著者は以前日本語諸方言に系統樹モデルを適用していた人。論文公開直後に見つけてつぶやいた。 window.twttr = (function(d, s, id) { var js, fjs = d.ge…

「戦犯旗」はいつ使われだしたか

世の中のいろんなものがネット上に移行して記録されるようになった結果、何がどう起きたかを後から*1分析できる場合が増えてきた。今回はそういう話。これから色々御託を並べる。けど結局やったことはローテク。ちゃんとした話ならちゃんとした場所で発表す…

JUMAN メモ

NLP

黒橋研究室で開発している日本語形態素解析器 JUMAN についてのメモ。以前は研究室のページに置いていたもの。長く放置していて内容的に古くなっていたが、最近になって突然晒された。*1文書に日付を入れていなかったのが敗因。この機会に雑記に移すことにし…

意味の意味が分からない

NLP

表題は某日記から拝借。計算機に自然言語を扱わせるうえで、意味を理解させるというのが大きな目標。しかしこの目標は漠然としている。何が達成できたら意味を理解したことになるのか分からない。いろんな人がいろんな方向から攻めている。適当に洗い出す。…

Randomized Pruning

NLP

Alexandre Bouchard-Côté et al. Randomized Pruning: Efficiently Calculating Expectations in Large Dynamic Programs. NIPS 2009. (pdf)時間があいてしまったが、前回と同じ話題。sampling 時に pruning を行う手法。前回はいずれも slice sampling に基…

Slice Sampling for Pruning

NLP

Markov chain Monte Carlo による sampling 時に pruning したい。そのために slice sampling を使う手法。何年遅れて人のあと追いかけてるんだって話だが、細かい話題がいろいろあるので書き出してみる。 slice sampling slice sampling 自体は (Neal, 2003…

Distortion in Mongolian-Japanese alignment

モンゴル語と日本語は類型論的に似てるという話は何度かしてきた。*1モンゴル語はたいていの場合、語順をひっくり返すことなく日本語に翻訳できる。そうは言っても、ある事柄を自然に説明する2つの表現が同じ語順であるとは限らない。語順をひっくり返した方…

Automated reconstruction of ancient languages using probabilistic models of sound change

Bouchard-Côté et al. Automated reconstruction of ancient languages using probabilistic models of sound change, PNAS, 2013.言語系統樹と、系統樹の葉にあたる現代語が持つ語彙の語形を与えたとき、祖語の語形を自動推定する。オーストロネシア語族に…

米国企業でのインターンシップのための事務手続き 2010年版

年明け一発目から昔話。2010年夏に2ヶ月半ほど Silicon Valley の某企業でインターンをやった。事務手続きについてメモっておいたのだが、7割ぐらい完成した草稿をずっと放置してきた。椀屋さんが J1 VISA 取得手続きについてまとめているのを読んで、草稿の…

Construction of Dependent Dirichlet Processes based on Poisson Processes

NLP

Dahua Lin, Eric Grimson, John Fisher. Construction of Dependent Dirichlet Processes based on Poisson Processes, NIPS 2010 (PDF, supplementary, videolectures, code).NIPS 2010 の best student paper。理解度は 2 割ぐらい。videolectures にあが…

一般意志 2.0

お仕事に関わるイベントで東浩紀氏の「一般意志 2.0 データ民主主義の可能性と限界 」という招待講演を聞いた。感想などを書く。話自体は streaming などで以前から聞いていた。調べたら去年3月付のメモ書き状態の草稿が残っていた。この機会を逃すと二度と…

Mapping the Origins and Expansion of the Indo-European Language Family

Bouckaert et al. 2012. Mapping the Origins and Expansion of the Indo-European Language Family 印欧語族アナトリア起源説をとなえるグループが新たに出した Science の論文。このグループは以前から同源語 (cognate) を使った系統樹の推定を行なってき…

The Accentual History of the Japanese and Ryukyuan Languages

Moriyo Shimabukuro, The Accentual History of The Japanese and Ryukyuan Languages: A Reconstruction, Global Oriental, 2007.*1表題が要点を押さえて簡潔。琉球諸方言を中心にとしたアクセントの通時的な研究。最終的には日本語祖語 (Proto-Japonic) の…

Manchu: A Textbook for Reading Documents

Gertraude Roth Li, Manchu: A Textbook for Reading Documents, University of Hawaii Press, 2000. Notes p.88, Notes 2: erei da sekiyen mafa gebu Paihanpar. As noted by the arthor, this sentence has a topic-comment structure. Is Manchu a topic…

NLP2012

NLP

広島市立大学で開催されていた言語処理学会第18回年次大会 (NLP2012) に関するメモ。 1X 年ぶりに山陽新幹線に乗った。みずほとさくらを確認したかったがかなわず せっかく広島に来たのに路面電車にも乗らずじまい 広島市立大学は山の中。でも山をトンネルで…

満洲語で動詞連体形がそのまま別の動詞の目的語になる場合についての落ちのない考察 (未整理)

満洲語を和訳するとき、擬古文で訳せばあたると歴史系の人はよくいう。うろ覚えだけど今西春秋あたりがそう書いていたはず。それがどうしてか真面目に考えたことがなかった。擬古文だと訳しやすい構文は何なのかと考えていて、動詞連体形がそのまま別の動詞…

Turkish Dependency Parsing

NLP

Gülşen Eryiğit, Joakim Nivre, Kemal Oflazer: Turkish Dependency Parsing, Computational Linguistics, Vol. 34, No. 3, 2008 (PDF).昔論文に関連研究として紹介するためにトルコ語の解析を調べたが、構文解析まわりの議論は没にした。ここに投げ捨て。興…

Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models

NLP

Mark Johnson, Thomas L. Griffiths and Sharon Goldwater (2007) Adaptor Grammars: A Framework for Specifying Compositional Nonparametric Bayesian Models, NIPS 19.最近雑記を書いていない。なぜか。全然新しことをやってないから。この論文も 2006/7…

A Bayesian Mixture Model for PoS Induction Using Multiple Features

NLP

Christos Christodoulopoulos*1; Sharon Goldwater; Mark Steedman: A Bayesian Mixture Model for PoS Induction Using Multiple Features (EMNLP2011) (PDF)(slides).教師なし POS induction。HMM でなく mixture model を使うのが特徴。教師なし POS indu…

続「訓読」論

中村春作ほか編: 続「訓読」論--東アジア漢文世界の形成 (2010)。超久しぶりにアフィる。毎日毎日いろんな文献を読んでいるが、(1) 単行本で (2) 日本語で (3) 流通している本を読むのは久しぶりのような気がする。せっかくなので感想などを書いてみる。 渡…

Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages

Sean Lee and Toshikazu Hasegawa. Bayesian phylogenetic analysis supports an agricultural origin of Japonic languages.柄にもなく今話題のネタを取り上げてみる。日本語の諸方言の語彙を使って系統樹を作ったら、共通祖語の時期が 2182 年前と推定され…