murawaki の雑記

はてなグループから移転してきました

ChatGPT 雑感

ChatGPT についてポエムを書き散らすのが流行っている。珍しく流行に乗ってみる。機会を逃すとまた状況が激変しそうだし。 研究者の YouTuber 化 ChatGPT は研究者が想定していた成長曲線よりも上に外れたところに現れた。こんなに流暢にテキストを生成する…

AI は内心を攻撃する手段となる

1年近く経ってしまったが前回の続き。自分の研究がどこに向かっているのかを思案する。私が思い描く理想とは反対の、碌でもない未来を作る片棒を担いでいる気がする。今回はそのことを書き出してみる。話の出発点は 2021年に招待講演にともなう解説記事的な…

AI は人間の直感の外部化

先週、学部同期の原さんのブログ記事「「悪いやつをAIで予測する」のがなぜいけないか」がバズっていた。*1 人間が何に反応するのかわからないものである。目についた反応のなかで私の感覚に近いのは、「みんなそんなことわかったうえで議論しているんだよ」…

大航海時代の海域アジアと琉球

中島楽章. 2020. 大航海時代の海域アジアと琉球: レキオスを求めて. 思文閣出版.琉球を中心とした海域アジアに対する大航海時代のヨーロッパ人の地理認識を文献、地図から解明しようという本。今回取りあげるのは第II部「ゴーレスとレキオス」、特にその中の…

꼬레아 코리아

오인동. 2006. 꼬레아 코리아. 책과함께.Korea やそれに類する西洋系の語は日本語の高麗に由来する。この仮説はほぼ確実だと私は考えている。それと同時に、どうして他の人間がそう明確に主張しないのか不思議に思っている。2016年7月には私の理解を説明する…

熟慮の使いどころ

2020 年になってしまったが、雑事に追われるばかりで進歩がない。進歩がないので去年 5 月のネタを蒸し返してみる。世の中一般的に想像される知性の高低と、計算機による実現の難しさは違う。前回は「昆虫とままごと」と言ってみた。世の中に蔓延する憶測に…

はてなグループからの引っ越し

2019 年 7 月第3週に数日かけて、はてなグループにあった雑記をはてなブログに移した。その処理のメモ。はてなグループを使っている人、さらには日記機能だけを使っていた人は少ないだろうから、需要はないと思われるが、備忘録として。 背景 2009 年 4 月に…

昆虫とままごと

いわゆる人工知能バブルはまだ続いているようで、大学や大学院*1の入試倍率は高いし、企業からの問い合わせも絶えない。その一方で、知性というものに対する世の中の認識と実態とのずれは解消される気配がない。計算機にとって何が簡単な問題で、何が難しい…

Areal pressure in grammatical evolution: An Indo-European case study

Chundra Cathcart, Gerd Carling, Filip Larsson, Niklas Johansson and Erich Round. 2018. Areal pressure in grammatical evolution: An Indo-European case study. Diachronica 35(1). (appendix, code).言語変化には縦の継承と横の接触という現象が関わ…

再び語について

NLP

Universal dependencies (UD) は係り受け付与の単位を syntactic words (not phonological or orthographic words) と定めている。この方針をどう評価するか。また、日本語の場合に具体的にどうするか。現在は国語研の短単位を採用しているが、これをどう説…

Universal Dependencies と類型論

NLP

研究史 (といってもここ 10 年以内だが) を調べてみるテスト。諸事情により、過去の経緯を把握する必要が生じたので。言語処理は普段はいい加減な分野で、誰に credit を与えるべきかあまり気にしないのだけど。Universal Dependencies (UD) は通言語的に一…

節か否か

NLP

前回のネタから引き続き、Universal Dependencies の日本語版の問題。今回取り上げるのは、係り受けのラベル。amod (adjectival modifier) と acl (clausal modifier of noun (adjectival clause)) の使い分け。修飾する単位が、前者は単語、後者は節 (claus…

「語」とはなにか・再考

宮岡 伯人. 2015. 「語」とはなにか・再考: 日本語文法と「文字の陥穽」.書名からは想像もつかないほど実用的な本。目下解決すべき問題へのたたき台となっているという点で。問題となっているのは Universal Dependencies for Japanese (日本語 UD)。そもそ…

日本語「形成」論

崎山理. 『日本語「形成」論: 日本語史における系統と混合』(2017)先週某氏に出版されたことを教えてもらった。簡単なメモ。長文を書き散らす時間が確保できない。日本語形成過程におけるオーストロネシア語族との「混合」を著者は長年主張してきた。その著…

UNESCO Atlas of the World's Languages in Danger の悲惨さとそれに関連するいくつか

Christopher Moseley ed. 2010. Atlas of the World’s Languages in Danger, 3rd edition. UNESCO Publishing. (online version).UNESCO から出ている、世界の危機言語を地図に示した本。以下、危機言語本とよぶ。UNESCO を権威としてありがたがる人をいまで…

Hmong-Mien Langage History

Martha Ratliff. (2010). Hmong-Mien Language History.なぜか一般受けした駄文を一時の気の迷いで書いてしまったが、平常運転に戻る。本の紹介。それも、アフィれない程度に入手困難な本。モン・ミエン語族に関する本。現代語の紹介とかぬるい話は抜きにし…

ニューラル機械翻訳と記号幻想の死

ニューラル機械翻訳が最近ひどいことになっている。科学技術論文の中日翻訳の結果を見て、ボスの中では機械翻訳はできてしまったことになっている。長年開発してきた用例ベース機械翻訳システムもあっさりお払い箱。しかしボスは満足している。既存研究の再…

Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales

Sara Graça da Silva and Jamshid J. Tehrani. 2016. Comparative phylogenetic analyses uncover the ancient roots of Indo-European folktales. Royal Society Open Science.各民族がある民話類型を持っているか否かをバイナリコーディングしたデータベー…

Creoles are typologically distinct from non-creoles

クレオールの類型論的性格について、非クレオールから弁別的*1だと主張する一連の論文群。表題に採用したのは 2011 年のジャーナル論文。 Peter Bakker, Aymeric Daval-Markussen, Mikael Parkvall and Ingo Plag. Creoles are typologically distinct from …

アノテーション一致度

NLP

アノテーション一致度 (inter-annotator agreement) を測りたいけど、κ が使えない場合どうするか。想定しているタスクは以下の通り。テキストからいくつか chunk を抽出し、それぞれにラベルを付与する。chunk の大きさはバラバラだし、テキストの一部しか…

Explaining the Linguistic Diversity of Sahul Using Population Models

Ger Reesink, Ruth Singer, Michael Dunn. Explaining the Linguistic Diversity of Sahul Using Population Models. PLoS Biology. 2009.せっかく STRUCTURE と ADMIXTURE の混合分布モデルを見たので、言語への応用例にも触れてみる。サフル (オーストラリ…

Support for linguistic macrofamilies from weighted sequence alignment

Gerhard Jäger. Support for linguistic macrofamilies from weighted sequence alignment. PNAS. 2015.単語対の文字列的な類似度を定義する。各言語は単語の集合で表現される。言語対の距離は、単語集合同士を比較して、単語対の類似度の平均を用いて定義す…

STRUCTURE と ADMIXTURE の混合分布モデル

NLP

久しぶりに NLP タグをつけたが、生物系の混合分布モデルの話。ゲノムを使う系統関係の論文では、PCA と並んで、よくこういう図が出てくる。 参考までに caption も引用。 (A) Representative estimate of population structure for 1,384 individuals from …

The Ising model for changes in word ordering rules in natural languages

Yoshiaki Itoh and Sumie Ueda. 2004. The Ising model for changes in word ordering rules in natural languages. Physica D. 198. pp. 333-339.*1言語類型論の話で、知りたいのは語順の通時変化。そのために今回着目するのが特徴量間の依存関係。例えば、…

アイヌ学入門

瀬川拓郎. 『アイヌ学入門』(2015)アイヌとその言語には、日本語の起源との関わりから興味を持っている。といっても、本腰を入れて追いかけているわけではない。本書のような新書*1であっても私にとっては新情報だらけ。本書では、主に文化面について、著者…

基礎語彙データの所在

単なるメモ書き。一つ前の記事でも見たように、Lee and Hasegawa (2011) の基礎語彙データは奄美・沖縄 (北琉球) 部分が貧弱。わずか 2 箇所しか扱っていない。宮古・八重山 (先島 = 南琉球) はかなり網羅的なのに。『現代日本語方言大辞典』(1992) を『南琉…

琉球語は虚構

2024/03/01追記: 9年後に論文化。表題は釣り。言語データの可視化について考えていて、ふと思いついたことを試してみた。具体的には、基礎語彙データに主成分分析 (PCA) を適用。問題設定。各言語がバイナリ化された基礎語彙 (010010...) で表現されている。…

文学部の潰し方

表題は釣り。国立文系を潰そうという文科省の通知*1 が先月 (2015年6月8日) 話題になった。(人) 文系といっても色々あるが、経済、法、教育等は接点がなさすぎて想像しにくい。文学部に絞って滅ぼし方を考える。あくまで思考実験。対策を考える足しになるか…

Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai

Gregory Clark, Tatsuya Ishii. Social Mobility in Japan, 1868-2012: The Surprising Persistence of the Samurai. manuscript. 2012. (pdf).社会的流動性の調査に希少な名字を用いる一連の研究の一部で、この手法を日本のデータに適用したもの。結果とし…

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。 背景 2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、…