murawaki の雑記

はてなグループから移転してきました

はてなグループからの引っ越し

2019 年 7 月第3週に数日かけて、はてなグループにあった雑記をはてなブログに移した。その処理のメモ。はてなグループを使っている人、さらには日記機能だけを使っていた人は少ないだろうから、需要はないと思われるが、備忘録として。 背景 2009 年 4 月に…

昆虫とままごと

いわゆる人工知能バブルはまだ続いているようで、大学や大学院*1の入試倍率は高いし、企業からの問い合わせも絶えない。その一方で、知性というものに対する世の中の認識と実態とのずれは解消される気配がない。計算機にとって何が簡単な問題で、何が難しい…

Areal pressure in grammatical evolution: An Indo-European case study

Chundra Cathcart, Gerd Carling, Filip Larsson, Niklas Johansson and Erich Round. 2018. Areal pressure in grammatical evolution: An Indo-European case study. Diachronica 35(1). (appendix, code).言語変化には縦の継承と横の接触という現象が関わ…

再び語について

NLP

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説…

Universal Dependencies と類型論

NLP

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。Universal Dependencies (UD) は通言語的に一…

節か否か

NLP

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier) と acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (claus…

「語」とはなにか・再考

宮岡 伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそ…

日本語「形成」論

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著…

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

Christopher Moseley ed. 2010. Atlas of the World’s Languages in Danger, 3rd edition. UNESCO Publishing. (online version).UNESCO から出ている、世界の危機言語を地図に示した本。以下、危機言語本とよぶ。UNESCO を権威としてありがたがる人をいまで…

Hmong-Mien Langage History

Martha Ratliff. (2010). Hmong-Mien Language History.なぜか一般受けした駄文を一時の気の迷いで書いてしまったが、平常運転に戻る。本の紹介。それも、アフィれない程度に入手困難な本。モン・ミエン語族に関する本。現代語の紹介とかぬるい話は抜きにし…

ニューラル機械翻訳と記号幻想の死

ニューラル機械翻訳が最近ひどいことになっている。科学技術論文の中日翻訳の結果を見て、ボスの中では機械翻訳はできてしまったことになっている。長年開発してきた用例ベース機械翻訳システムもあっさりお払い箱。しかしボスは満足している。既存研究の再…

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

Sara Graça da Silva and Jamshid J. Tehrani. 2016. Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales. Royal Society Open Science.各民族がある民話類型を持っているか否かをバイナリコーディングしたデータベー…

Creoles are typologically distinct from non-creoles

クレオールの類型論的性格について、非クレオールから弁別的*1だと主張する一連の論文群。表題に採用したのは 2011 年のジャーナル論文。 Peter Bakker, Aymeric Daval-Markussen, Mikael Parkvall and Ingo Plag. Creoles are typologically distinct from …

アノテーション一致度

NLP

アノテーション一致度 (inter-annotator agreement) を測りたいけど、κ が使えない場合どうするか。想定しているタスクは以下の通り。テキストからいくつか chunk を抽出し、それぞれにラベルを付与する。chunk の大きさはバラバラだし、テキストの一部しか…

Explaining the Linguistic Diversity of Sahul Using Population Models

Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリ…

Support for linguistic macrofamilies from weighted sequence alignment

Gerhard Jäger. Support for linguistic macrofamilies from weighted sequence alignment. PNAS. 2015.単語対の文字列的な類似度を定義する。各言語は単語の集合で表現される。言語対の距離は、単語集合同士を比較して、単語対の類似度の平均を用いて定義す…

STRUCTURE と ADMIXTURE の混合分布モデル

NLP

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。 参考までに caption も引用。 (A) Representative estimate of population structure for 1,384 individuals from …

The Ising model for changes in word ordering rules in natural languages

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、…

アイヌ学入門

瀬川拓郎. 『アイヌ学入門』(2015)アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。本書では、主に文化面について、著者…

基礎語彙データの所在

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古・八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉…

琉球語は虚構

表題は釣り。言語データの可視化について考えていて、ふと思いついたことを試してみた。具体的には、基礎語彙データに主成分分析 (PCA) を適用。問題設定。各言語がバイナリ化された基礎語彙 (010010...) で表現されている。そうすると、言語間の類似度が適…

文学部の潰し方

表題は釣り。国立文系を潰そうという文科省の通知*1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるか…

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果とし…

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。 背景 2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、…

Modelling the Spatial Dynamics of Culture Spreading in the Presence of Cultural Strongholds

Ludvig Lizana, Namiko Mitarai, Kim Sneppen, and Hiizu Nakanishi. Modeling the spatial dynamics of culture spreading in the presence of cultural strongholds. Physical Review E 83. 2011.物理屋さんによる言語の論文。先月、物理屋さんの研究会で…

Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis

Will Chang, Chundra Cathcart, David Hall and Andrew Garrett. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language, Vol. 91, No. 1. 2015. (preprint).ここしばらく連続して雑記に言語ネタを投下してき…

Rate of language evolution is affected by population size

Lindell Bromham, Xia Hua, Thomas G. Fitzpatrick, Simon J. Greenhill. Rate of language evolution is affected by population size. PNAS, vol. 112 no. 7. 2015.言語の変化速度と話者数 (人口) の関係を調べている。変化速度は基礎語彙の gain/loss に…

Evolved structure of language shows lineage-specific trends in word-order universals

Michael Dunn, Simon J. Greenhill, Stephen C. Levinson and Russell D. Gray. Evolved structure of language shows lineage-specific trends in word-order universals. Nature 473. (2011).類型論の特徴量がどのように時間変化するかに最近取り組んでい…

Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution

Daniel J. Hruschka, Simon Branford, Eric D. Smith, Jon Wilkins, Andrew Meade, Mark Pagel, and Tanmoy Bhattacharya. Detecting Regular Sound Changes in Linguistics as Events of Concerted Evolution. Current Biology, 25(1), 2015.音変化を統計的…

対人行動の普遍性と個別性

かつて同じ時期に同じ研究室にいた人が、人間の能力について最近楽しそうに書いている。触発されて私も書いてみる。彼の焦点は対人行動の普遍性、というか生得的能力にある。私はむしろ個別性に興味がある。この世界には異なる文化が存在する。同じ人間であ…