murawaki の雑記

はてなグループから移転してきました

2015-01-01から1年間の記事一覧

Creoles are typologically distinct from non-creoles

クレオールの類型論的性格について、非クレオールから弁別的*1だと主張する一連の論文群。表題に採用したのは 2011 年のジャーナル論文。 Peter Bakker, Aymeric Daval-Markussen, Mikael Parkvall and Ingo Plag. Creoles are typologically distinct from …

アノテーション一致度

NLP

アノテーション一致度 (inter-annotator agreement) を測りたいけど、κ が使えない場合どうするか。想定しているタスクは以下の通り。テキストからいくつか chunk を抽出し、それぞれにラベルを付与する。chunk の大きさはバラバラだし、テキストの一部しか…

Explaining the Linguistic Diversity of Sahul Using Population Models

Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリ…

Support for linguistic macrofamilies from weighted sequence alignment

Gerhard Jäger. Support for linguistic macrofamilies from weighted sequence alignment. PNAS. 2015.単語対の文字列的な類似度を定義する。各言語は単語の集合で表現される。言語対の距離は、単語集合同士を比較して、単語対の類似度の平均を用いて定義す…

STRUCTURE と ADMIXTURE の混合分布モデル

NLP

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。 参考までに caption も引用。 (A) Representative estimate of population structure for 1,384 individuals from …

The Ising model for changes in word ordering rules in natural languages

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、…

アイヌ学入門

瀬川拓郎. 『アイヌ学入門』(2015)アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。本書では、主に文化面について、著者…

基礎語彙データの所在

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古・八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉…

琉球語は虚構

表題は釣り。言語データの可視化について考えていて、ふと思いついたことを試してみた。具体的には、基礎語彙データに主成分分析 (PCA) を適用。問題設定。各言語がバイナリ化された基礎語彙 (010010...) で表現されている。そうすると、言語間の類似度が適…

文学部の潰し方

表題は釣り。国立文系を潰そうという文科省の通知*1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるか…

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果とし…

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。 背景 2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、…

Modelling the Spatial Dynamics of Culture Spreading in the Presence of Cultural Strongholds

Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.物理屋さんによる言語の論文。先月、物理屋さんの研究会で…

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).ここしばらく連続して雑記に言語ネタを投下してき…

Rate of language evolution is affected by population size

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss に…

Evolved structure of language shows lineage-specific trends in word-order universals

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).類型論の特徴量がどのように時間変化するかに最近取り組んでい…

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.音変化を統計的…

対人行動の普遍性と個別性

かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であ…