Baidu ブログ・掲示板時間軸コーパス*1を使って新語 (新用法) の出現時期を求めるテスト。結果は芳しくないけど。時系列コーパスといっても、期間は10年程度。通時言語学の一般的な想定よりもオーダーレベルで短い。
時系列コーパスといえば東大喜連川研。定期的にクロールしてウェブのスナップショットを作っていた。でも研究報告があるだけで、コーパス自体は門外不出らしい。著作権がらみの問題が原因だったと思う。
ということで (いろんな意味でいま話題の) Baidu の提供するデータを使う。スタッフブログによると、文と時刻の対応付けに時間表現・タイムスタンプを使う。方法自体は私も考えたことあるけど、ちゃんと作って公開されててすばらしい。時刻は月単位で集約されている。
「ブログ・掲示板時間軸コーパス」という名前は misleading。公開されているのは N-gram (N <= 3)。文の分割に MeCab + ipadic を使っている。
規模は小さい。ブログと掲示板に限定しているだけに。文数が合計10M。月別では2000年4月で 1K。2010年5月で 330K。基本的に新しいほど量がある。頻度数回の N-gram は除かれている。オーダーがあと一つは大きくないと苦しい。頑張って走査用のデータ構造を作らなくても、単発の query なら grep で事足りる。
調べてみたのは「真逆」。本来「まさか」の当て字。でも「まぎゃく」と読んで「正反対」の意味で使われている。私の感覚ではそんなに古くないはずだが、いったいいつから使われだしたのか。この疑問に Baidu の N-gram は答えられるか。
最初の罠は未知語。文の分割に MeCab + ipadic を使っているので、「真逆」は「真」と「逆」に過分割される。*2前後の文字列に関係なくほぼ一貫してこう解析されるはず。*3喜連川研の時系列コーパスを使った研究は、「ファブる」を題材にしていた。未知語がからむと、他人が作った N-gram は使いにくい。*4
とりあえず「真逆」は2形態素扱いで先に進む。bigram (実質 unigram) の grep。
2002-12.2gm:真 逆 2 2003-08.2gm:真 逆 3 2004-04.2gm:真 逆 4 2005-04.2gm:真 逆 2 2005-07.2gm:真 逆 3 2005-09.2gm:真 逆 2 2005-11.2gm:真 逆 2 2006-02.2gm:真 逆 3 2006-03.2gm:真 逆 8 2006-05.2gm:真 逆 4 2006-06.2gm:真 逆 3 2006-07.2gm:真 逆 7 2006-08.2gm:真 逆 5 2006-09.2gm:真 逆 3 2006-10.2gm:真 逆 5 2006-12.2gm:真 逆 5 2007-01.2gm:真 逆 3 2007-02.2gm:真 逆 5 2007-03.2gm:真 逆 5 2007-04.2gm:真 逆 4 2007-05.2gm:真 逆 4 2007-06.2gm:真 逆 7 2007-07.2gm:真 逆 9 2007-08.2gm:真 逆 7 2007-09.2gm:真 逆 10 2007-10.2gm:真 逆 9 2007-11.2gm:真 逆 7 2008-01.2gm:真 逆 4 2008-02.2gm:真 逆 10 2008-03.2gm:真 逆 5 2008-04.2gm:真 逆 10 2008-05.2gm:真 逆 6 2008-06.2gm:真 逆 11 2008-07.2gm:真 逆 8 2008-08.2gm:真 逆 8 2008-09.2gm:真 逆 9 2008-10.2gm:真 逆 5 2008-11.2gm:真 逆 5 2008-12.2gm:真 逆 9 2009-01.2gm:真 逆 6 2009-02.2gm:真 逆 11 2009-03.2gm:真 逆 9 2009-04.2gm:真 逆 5 2009-05.2gm:真 逆 7 2009-06.2gm:真 逆 10 2009-07.2gm:真 逆 9 2009-08.2gm:真 逆 14 2009-09.2gm:真 逆 8 2009-10.2gm:真 逆 14 2009-11.2gm:真 逆 7 2009-12.2gm:真 逆 15 2010-01.2gm:真 逆 13 2010-02.2gm:真 逆 6 2010-03.2gm:真 逆 21 2010-04.2gm:真 逆 8 2010-05.2gm:真 逆 15 2010-06.2gm:真 逆 26 2010-07.2gm:真 逆 19
流行語のように、どこかの時点で一気に burst してたらわかりやすいのだが、そんなことはなかった。初出が2002年12月。でも次が2003年8月。安定的に出現するのは2006年頃から。しかし足きり境界近辺をさまよっている。
こんなに小さな値では信頼できないけど、一応確率も求めてみる。文数で割って 1 万をかける。文あたりの形態素数が月ごとに変化しないと仮定すれば、確率に比例した値になっているはず。しかしなんとも言えない結果。グラフを描いてみたけどやっぱり微妙。
2002-12 0.766107 2003-08 0.890208 2004-04 1.445400 2005-04 0.427606 2005-07 0.504838 2005-09 0.327595 2005-11 0.309210 2006-02 0.397314 2006-03 0.981234 2006-05 0.525707 2006-06 0.337712 2006-07 0.749689 2006-08 0.530189 2006-09 0.322615 2006-10 0.516785 2006-12 0.556805 2007-01 0.314495 2007-02 0.564143 2007-03 0.493993 2007-04 0.399768 2007-05 0.379309 2007-06 0.637749 2007-07 0.763080 2007-08 0.523024 2007-09 0.725368 2007-10 0.601480 2007-11 0.537255 2008-01 0.309246 2008-02 0.743649 2008-03 0.360706 2008-04 0.749288 2008-05 0.417304 2008-06 0.745520 2008-07 0.544614 2008-08 0.547645 2008-09 0.540372 2008-10 0.282839 2008-11 0.330635 2008-12 0.585210 2009-01 0.362976 2009-02 0.695736 2009-03 0.528240 2009-04 0.302684 2009-05 0.384168 2009-06 0.565099 2009-07 0.442815 2009-08 0.657431 2009-09 0.389039 2009-10 0.587426 2009-11 0.292954 2009-12 0.511242 2010-01 0.515182 2010-02 0.250815 2010-03 0.705790 2010-04 0.294006 2010-05 0.447716 2010-06 0.784882 2010-07 0.630653
bigram (実質 unigram) では二つの用法が区別できない。次に trigram (実質 bigram) を2通り見る。先に後続要素。
2002-12.3gm:真 逆 に 2 2003-08.3gm:真 逆 で 3 2004-04.3gm:真 逆 に 3 2005-09.3gm:真 逆 な 2 2005-11.3gm:真 逆 な 2 2006-03.3gm:真 逆 の 6 2006-07.3gm:真 逆 の 4 2006-10.3gm:真 逆 の 3 2007-03.3gm:真 逆 な 3 2007-04.3gm:真 逆 な 3 2007-07.3gm:真 逆 の 7 2007-09.3gm:真 逆 の 4 2007-10.3gm:真 逆 だ 3 2007-11.3gm:真 逆 の 3 2008-03.3gm:真 逆 の 4 2008-06.3gm:真 逆 の 7 2008-08.3gm:真 逆 の 6 2008-09.3gm:真 逆 の 4 2008-12.3gm:真 逆 の 4 2009-12.3gm:真 逆 の 7 2010-01.3gm:真 逆 の 5 2010-03.3gm:真 逆 の 8 2010-06.3gm:真 逆 だ 6 2010-06.3gm:真 逆 な 5 2010-06.3gm:真 逆 の 5 2010-07.3gm:真 逆 な 5
bigram とカウントが一致しないのは足きりが原因。
「まさか」の後ろに「の」「だ」*5は後続し得るが、「な」「に」はかなり不自然。「まぎゃく」と考えていいだろう。初出の2002年12月は「に」。「真逆」自体の初出でもある。次が2004年4月「に」。2005年9月、11月と「な」が続くが、その次が2007年3月の「な」。判断が難しい。
次は前接要素。
2003-08.3gm:は 真 逆 3 2004-04.3gm:、 真 逆 3 2005-09.3gm:と 真 逆 2 2006-03.3gm:と 真 逆 5 2006-05.3gm:は 真 逆 3 2006-07.3gm:は 真 逆 3 2006-12.3gm:は 真 逆 4 2007-03.3gm:は 真 逆 3 2007-06.3gm:は 真 逆 4 2007-07.3gm:、 真 逆 3 2007-09.3gm:と 真 逆 3 2007-10.3gm:は 真 逆 4 2007-11.3gm:は 真 逆 5 2008-04.3gm:は 真 逆 6 2008-08.3gm:は 真 逆 5 2010-01.3gm:は 真 逆 7 2010-03.3gm:が 真 逆 5 2010-03.3gm:は 真 逆 7 2010-06.3gm:と 真 逆 5 2010-06.3gm:は 真 逆 10 2010-07.3gm:は 真 逆 6
前接要素は自由度が高い。その分足きりにあいまくり。「と」は「まぎゃく」用法と見ていいだろう。「と」の例は2005年9月、2006年3月、2007年9月と続く。
感覚的には「まさか」の用法はほぼ0で、全部「まぎゃく」だと予想。でもデータからは確証が得られない。やっぱりもっとデータ量がほしい。月毎じゃなくて、半年ごとぐらいの N-gram をつくって、足きりにあってる語をもう少し救ってくれるだけでも違いそう。
余談。スタッフブログに載っている実行例を見て絶望的な気分になった。「ワールドカップ」と「オリンピック」、「モーニング娘」と「AKB48」を比較している。そんな発想は私にはなかった。もうちょっとお金のにおいのする方向に関心を向けないと、この先生き残れないと宣告されたみたい。確かにそうなんだけど。
2011年2月10日 追記: 月ごとに足きりされていることを無視して、bigram 「真 逆」を半年ごとに集約してみた。月ごとだと分解しすぎて分かりにくかったのが、いい感じに均された。やはり2006年頃から「真逆」表記が安定的に使われだしている。
2002-9 0.127769 2003-3 0.000000 2003-9 0.160504 2004-3 0.189328 2004-9 0.000000 2005-3 0.069075 2005-9 0.182314 2006-3 0.373704 2006-9 0.450211 2007-3 0.466270 2007-9 0.525426 2008-3 0.556077 2008-9 0.467429 2009-3 0.471446 2009-9 0.481147 2010-3 0.515197 2010-9 0.630653
2011年7月8日追記: その後もたまにいろんなフレーズを調べてみている。「ブヒる」は N-gram 公開 (2010年7月) 以降に普及したらしくヒットしない。ここの調査によると、広まりだしたのは2011年1月頃とのこと。
「心が折れる」は初出が2005年6月、ついで2006年4月。2007年4月からほぼ毎月出現している。「心を折る」は少なく、2005年12月、2008年4月のみ。2008年4月に「心を折られる」がある。「感動をもらう」はまったくヒットしない。「感動をありがとう」という気持ちの悪いフレーズは、2004年2月にはもうヒットする。思ったより昔からあるみたい。
2011年8月22日追記: 「上から目線」の初出は2006年10月。以後安定的に頻度が上がっていっている。
「ドヤ顔」は2010年5月が初出。こちらはずっと新しい。
2011年8月28日追記: 「常考」は初出が2007年6月。2007年10月を peak とするわかりやすい burst があって、その後はあまり使われなくなっている。
2011年9月1日追記: 「マジキチ」は2008年7月が初出。2008年10月以降一貫して出現する。
2011年9月15日追記: 「俺の嫁」は2006年半ばから使われだした模様。もちろんそれ以前から出現するし、2003年12月に謎の burst があるけど。「俺の嫁」だけで trigram を消費するから文脈がわからない。「孕む」系の表現も調べてみたけどなんとも言えない。
2011年9月18日追記: 「残念な N」の新用法。普通の用法だと、誰かがいて、そいつが何かをあきらめきれない。新用法では、N 自体の出来が悪いという意味になる (もっとうまく説明できないか)。"^残念 な " で *.3gm を grep して眺める。新用法の可能性のある用例。
- 2006/02: 残念な兄貴
- 2009/06: 残念な友人
- 2009/08: 残念なやつ
- 2009/12: 残念な人
- 2010/02: 残念な人
- 2010/04: 残念な人
- 2010/06: 残念な人
2009年頃から使われだしたみたい。2006年のは謎。trigram だから頻度足きりにあいまくっているはずで、もっと早い用例が存在するかもしれない。
2011年9月22日追記: 「ハロウィン」は周期性があって、毎年10月に burst。2000年代前半はほとんど出現しない。2004年、2005年、2006年と毎年頻度が上昇し、以降は定着している。この時期に誰かが仕掛けたのだろう。
2011年9月23日追記: いくつかの例について頻度のグラフを upload してみた。
「スイーツ」は使われだすのは2005年頃からだが、普及するのはもっと後。2007年11月に何かが起きたみたい。「スイーツ ( 笑」(これで trigram) の初出も2007年11月。この月の bigram は
スイーツ ( 13
スイーツ の 9
スイーツ は 5
スイーツ を 4
スイーツ 座れ 3
スイーツ 脳 6
だから「スイーツ(笑)」だけで burst を説明するのは苦しい。
2011年9月24日追記: 「~脳」である種の思考様式を表す用法。きれいな結果がでない。「ゲーム脳」が2002年7月だから相当古い。全般的に出現頻度が低く、脚きりと戦っている。
2001-07.2gm:女性 脳 2
2001-07.2gm:男性 脳 2
2001-12.2gm:男 脳 3
2002-01.2gm:車 脳 2
2002-08.2gm:バブル 脳 2
2004-01.2gm:女 脳 12
2004-01.2gm:男 脳 6
2004-09.2gm:エロゲ 脳 3
2004-12.2gm:野球 脳 2
2005-01.2gm:野球 脳 3
2005-02.2gm:ゲーム 脳 2
2005-02.2gm:野球 脳 5
2005-03.2gm:野球 脳 6
2005-04.2gm:ゲーム 脳 3
2005-06.2gm:ゲーム 脳 4
2005-07.2gm:先入観 脳 2
2005-07.2gm:成功 脳 3
2005-08.2gm:野球 脳 4
2005-09.2gm:女 脳 2
2005-09.2gm:小学生 脳 4
2005-09.2gm:男 脳 2
2005-12.2gm:英語 脳 2
2005-12.2gm:野球 脳 2
2006-01.2gm:エロゲ 脳 5
2006-02.2gm:男性 脳 4
2006-03.2gm:野球 脳 6
2006-06.2gm:メリポ 脳 3
2006-07.2gm:エロゲ 脳 6
2006-07.2gm:キチガイ 脳 4
2006-07.2gm:野球 脳 4
2006-08.2gm:奴隷 脳 3
2007-02.2gm:ゲーム 脳 4
2007-07.2gm:野球 脳 4
2007-08.2gm:ゲーム 脳 4
2007-10.2gm:エロゲ 脳 3
2007-11.2gm:スイーツ 脳 6
2007-11.2gm:スクイズ 脳 7
2007-11.2gm:恋愛 脳 3
2007-12.2gm:エロゲ 脳 7
2007-12.2gm:ゲーム 脳 3
2007-12.2gm:スイーツ 脳 4
2008-03.2gm:ゲーム 脳 25
2008-05.2gm:ゲーム 脳 5
2008-05.2gm:野球 脳 4
2008-07.2gm:ゲーム 脳 4
2008-08.2gm:ゲーム 脳 11
2008-08.2gm:勝負 脳 4
2008-09.2gm:ゆとり 脳 4
2008-11.2gm:ゲーム 脳 14
2008-12.2gm:ゲーム 脳 11
2009-01.2gm:野球 脳 17
2009-02.2gm:ゲーム 脳 7
2009-03.2gm:野球 脳 13
2009-06.2gm:ゲーム 脳 5
2009-07.2gm:ゲーム 脳 10
2009-07.2gm:スイーツ 脳 15
2009-10.2gm:ゲーム 脳 9
2010-01.2gm:アイマス 脳 16
2010-01.2gm:ゲーム 脳 5
2010-02.2gm:ゲーム 脳 12
2010-04.2gm:野球 脳 10
2010-06.2gm:ブログ 脳 5
2010-07.2gm:恋愛 脳 5
「ブラック企業」が使われだすのは2009年頃。2001年1月に3回、同年9月に2回出現しているけど、その次が2007年12月。
「リア充」は初出が2006年7月で、2008年以降順調に普及している。「リア 充 爆発」(trigram) は2009年12月しかヒットしない。リア充爆発しろ。
2015年11月8日追記: 「キョロ充」の用例もあった。
2010-04.2gm:キョロ 充 5
「情弱」は初出が2008年12月。すぐに広まっている。
「ビッチ」はもちろん昔からある言葉だが、2007年以降よく使われるようになっている。2007年9月から10月にかけて burst している。みんなビッチ、ビッチ言いすぎ。
「イケメン」は他とは段違いでよく使われている。初出は2000年9月。思ってたよりずっと早い。2002年あたりから着実に頻度が上がっている。
「※ただしイケメンに限る」も若干の使用例が確認できる。
2008-08.3gm:ただし イケメン に 5
2009-07.3gm:ただし イケメン に 7
2009-08.3gm:ただし イケメン に 7
2009-12.3gm:ただし イケメン に 6
2010-06.3gm:ただし イケメン に 9
かつて使われていて、いまでは廃れた例。「ドキュン」と「ドキュソ」。2002年ぐらいまで使われていた。「ドキュン」の peak は分からないが、「ドキュソ」の peak は遅れて2001年半ばに来ている。これらと交替するように「DQN」が出てきて定着している。ちなみに「DQNネーム」は2003年2月にはもう出現する。
「おまいら」は解析誤りを起こすので、「お + まいら」(bigram) と「お + まい + ら」(trigram) のカウントを足して対処。一時期流行って、その後落ち着いている。
2011年9月24日追記 (25日加筆): いまある意味話題の「韓流」。初登場は2004年6月。ゆるやかな減少傾向にあったのに、2010年4月に異常な burst をみせる。出現回数が異常なので trigram をたどっていくと文が完全復元できた。
<S>韓流ドラマ新番組「ニューハート」始まるよ♪ニューハーフじゃなくて…胸部外科の医療ドラマだよ</S>
これが3,385回出現している。「韓流」が3,484回だから97%以上を占める。不自然にもほどがある。とりあえず補正してみた (緑線)。4月はこの spam コメントを除去。5~7月は「韓流タウン」という宣伝臭あふれるフレーズが半分ぐらいを占めていたのでこれを除去。補正値でも一応3月以降は頻度が上昇している。「韓流タウン」がらみの出現が完全には除去できていないのかもしれない。ついでに「嫌韓流」のカウントを引いてみた (青線) が、大勢に変化はない。
縦軸の数値は、出現確率に比例した値になっている (はず)。小さな値で扱いにくいので、いま仮に0.0002を1ビッチとする。burst 時の「ハロウィン」が10ビッチ、「イケメン」が5ビッチ、「DQN」が1.5ビッチにあたる。「韓流」の適正水準はおそらく0.5ビッチ程度。それを無理にテコ入れするから、ゴリ押しとして嫌われているのだろう。
2011年10月1日追記: 「違くて」を調べてみる。ipadic には「違く」から始まる語はないので、「違」と「く」は切れる。統計をとれるほど出てこない。以下が '^違 く' で trigram を grep した結果:
2002-08.3gm:違 く て 3
2006-01.3gm:違 く ない 3
2009-06.3gm:違 くね ? 5
bigram ならもう少しヒットする。分かったのは、2002年には既に使われていたということぐらい。
2011年12月17日追記: 「誰得」と「俺得」を調べてみた。前者の初出は2009年7月、後者は2010年3月。半年以上経ってから派生形が登場していることになる。
2011年12月23日追記: 「アッー!」を最近よく見かけると思ったけど、実は2006年頃から安定的に使われている。グラフは「アッー」の unigram を集計したもの。bigram を見ると、ほぼ必ず「!」が後続している。
2011年12月28日追記: 「スルーする」は2002年頃に生まれた様子。サ変の用法は "スルー (さ|し|す|出来|でき)" で判定。
2011年12月31日追記: いったいいつから「空気」は「読む」ものになってしまったのか。山本七平の専売特許ではなかったのか。bigram を "^空気 読"、trigram を "^空気 .* 読" で grep (助詞を抜く場合と抜かない場合、「読む」と可能動詞「読める」を合算)。月ごとにやたら頻度がばらついているのが気になる。2000年代前半にはすでに空気は読むものだったみたい。2007年10月を peak とする burst がある。それに少し遅れる形で、2008年1月を peak とする「KY」の burst がある。「KY」の初出は2007年5月。
2012年1月5日追記: 「萌え」は2000年には既に使われている。
長期減少傾向が見られる。ウェブ上の書き手の割合の変化を疑う。しかし、「アニメ」の頻度を見ると、長期増加傾向にある。やっぱり純粋に使用頻度が落ちているのか。
「就活」は辞書にないが、MeCab の未知語処理が一語にする。データ量の少ない2001年5月には出現するので、それ以前から存在した可能性がある。「就活」には周期性があり、3月を peak とする burst がある。年々 burst 性が弱まり、通年化している様子。
2015年9月2日追記: とある tweet を見て、「就活」と「婚活」を比較してみた。「婚活」は初出が2008年7月で、「就活」よりかなり遅れる。
2012年2月3日追記: 「ドン引き」の初出は2004年7月。「ドン引く」という、「ドン引き」からの類推が出てこないかと思ったが、2007年11月に3回出てくるだけ。
2012年2月20日追記: 「胸熱」は初出が2010年6月。コーパス作成時にぎりぎり間に合っている。
2012年3月17日追記: 「イラッと/イラっと」の初出は2005年8月。徐々に増えているが、「イライラ/いらいら」を置き換える様子はない。
2012年3月20日追記: 「くんかくんか」は解析誤りを起こすので、trigram を「くん + かく + ん」で引く。実は昔からある。
2005-12.3gm:くん かく ん 2
2007-12.3gm:くん かく ん 3
2009-07.3gm:くん かく ん 6
2009-08.3gm:くん かく ん 5
2009-11.3gm:くん かく ん 5
2010-05.3gm:くん かく ん 6
2010-06.3gm:くん かく ん 7
2010-07.3gm:くん かく ん 6
2012年4月8日追記: 「ヒャッハー」は出典は『北斗の拳』と言われる割に、見かけるようになったのは最近。
2012年4月10日追記: 「これはひどい」は2006年頃からよく使われてるようになっている。ニコニコ大百科では「大冒険セントエルモスの奇跡」が元ネタという説が紹介されているが、1996年発売だから時期があわない。むしろ、悪名高きはてなブックマークのベータ版開始が2005年2月だから、こっちの影響ではないか (要検証)。
2012年6月7日追記: 「ナマポ」は2009年になって登場。
2009-04.2gm:ナマ ポ 8
2009-09.2gm:ナマ ポ 8
2009-10.2gm:ナマ ポ 9
2009-12.2gm:ナマ ポ 10
2010-05.2gm:ナマ ポ 11
2010-06.2gm:ナマ ポ 9
2010-06.1gm:ナマポヤクザ 12
2010-07.2gm:ナマ ポ 10
2012年6月16日追記: 「^ガチャ\t」をプロットしてみる。「コンプガチャ」はヒットしない。そろそろデータが古くてつらくなってきた。
「半端ない」は "^(半端|ハンパ) (な[^\t]|無)" で grep。「半端な」を除去しつつ、「ない」の活用形を網羅する。初出は2003年。「イケメン」もそうだけど、一気に普及するのではなく、じりじり使用頻度が上がっていくのが興味深い。
2012年6月17日追記: 「社畜」はなぜか ipadic に入っている。2006年には用例がある。2010年7月までのデータだとあまりヒットしない。
2006-02.1gm:社畜 3
2006-04.1gm:社畜 11
2008-12.1gm:社畜 8
2009-09.1gm:社畜 7
2009-10.1gm:社畜 5
2010-01.1gm:社畜 10
2012年8月22日追記: 最近「日射病」という言葉を聞かなくなって、もっぱら「熱中症」というという話が出たので調べてみた。対象期間内だと、「日射病」は最初から「熱中症」に圧倒されていた。
2003-06.1gm:日射病 3
2003-07.1gm:日射病 2
2005-07.1gm:日射病 5
2005-08.1gm:日射病 2
2006-05.1gm:日射病 3
2006-07.1gm:日射病 3
2006-08.1gm:日射病 8
2007-08.1gm:日射病 4
2008-07.1gm:日射病 6
2009-08.1gm:日射病 5
2010-07.1gm:日射病 12
2012年10月9日追記: 「女子力」はもっとヒットするかと思った。
2009-11.2gm:女子 力 5
2010-02.2gm:女子 力 6
2010-04.2gm:女子 力 5
2010-06.2gm:女子 力 5
2010-07.2gm:女子 力 7
2013年7月5日追記: 「老害」は、言葉自体は昔からあるし、絶対頻度が低いので断定的なことは言いづらいが、2007年頃から使用頻度が高くなっていっているように見える。
2013年8月3日追記: 「ふとましい」はほとんどヒットしない。2005年9月には用例がある。
2005-09.2gm:ふと まし 3
2009-09.2gm:ふと まし 6
2005年9月の bigram の 3 件はすべて「ふとましい」だったので trigram にも出現する。2009年9月のは活用変化させているのか、足切りにあって trigram には出現しない。
2005-09.3gm:ふと まし い 3
2014年3月6日追記: 「ぶっちゃけ」は「ぶっ + ちゃ + け」と誤解析される。初出は2001年6月だが、それ以前からあったのだろう。2004年2月の burst は "ぶっちゃけ「最速" というフレーズの断片。2008年6月のは "ぶっちゃけ、男声を増やしたいんです" というフレーズが trigram の連鎖が復元できた。
2014年4月17日追記: Twitter で見かけた (が元ツイートをひかえるのを忘れた) ネタとして、「素足」と「生足」の関係がある。n-gram の比較では、頻度が低すぎて何とも言えない。Google Trends の比較だと、2005 年以前からほぼ一貫して「生足」の方が interest が高い。ただし、「生足」は台湾、中国も含んでいる。
2015年9月2日追記: 「~沼」という表現は最近になって聞くようになった気がするが、2007年にそれっぽい用例があった。
2007-06.2gm:レンズ 沼 3
2015年10月4日追記: 「シルバーウィーク」が2009年にしか使われていないことに気付いた。
2009-09.2gm:シルバー ウィーク 831
2009-10.2gm:シルバー ウィーク 52
2009-12.2gm:シルバー ウィーク 5
2016年3月8日追記: 「キレッキレ」はヒットしない。Google Trends で最初に非ゼロの interest が現れるのは 2013 年 9 月。
2016年6月20日追記: 「<地名>+住み」でそこに居住していることを表す表現。違和感しかないが古くからある。初期の用例の地名が関西なのが気になるが、気のせいだろうか。なぜか 2006 年 1 月以降引っかからなくなる。
2003-12.2gm:湖西 住み 2
2004-01.2gm:関西 住み 3
2004-03.2gm:茨城 住み 2
2005-02.2gm:加古川 住み 2
2005-02.2gm:地方 住み 4
2005-04.2gm:福岡 住み 2
2005-06.2gm:市 住み 2
2005-07.2gm:中部 住み 2
2005-09.2gm:静岡 住み 2
2005-10.2gm:県 住み 5
2006-01.2gm:東京 住み 3
居住地を聞く「どこ住み」という表現はさらに古く、初出は 2003 年 7 月。
2003-07.2gm:どこ 住み 2
2004-01.2gm:どこ 住み 2
2005-03.2gm:どこ 住み 2
2005-06.2gm:どこ 住み 6
2005-07.2gm:どこ 住み 5
2005-08.2gm:どこ 住み 2
2005-09.2gm:どこ 住み 2
2005-10.2gm:どこ 住み 4
2005-11.2gm:どこ 住み 2
2005-11.2gm:ドコ 住み 3
2005-12.2gm:どこ 住み 4
2006-01.2gm:どこ 住み 9
2006-02.2gm:どこ 住み 4
2006-03.2gm:どこ 住み 4
2006-05.2gm:どこ 住み 3
2006-06.2gm:どこ 住み 5
2006-08.2gm:どこ 住み 4
2006-09.2gm:どこ 住み 3
2007-06.2gm:何処 住み 3
2007-08.2gm:どこ 住み 4
2008-03.2gm:どこ 住み 6
2008-10.2gm:どこ 住み 8
2008-11.2gm:どこ 住み 5
2008-12.2gm:どこ 住み 6
2009-08.2gm:どこ 住み 5
2009-09.2gm:どこ 住み 6
2010-03.2gm:どこ 住み 5
2016年6月30日追記: 「ほぼほぼ」が朝日新聞で取り上げられていたので調べてみた。期間内で一度もヒットしない。Google Trends 的には昔からあって、一定周期でバーストすることが話題になっていたが。
2016年9月7日追記: 「わちゃわちゃ」は2010年5月に6件ひっかかるだけ。単語分割に失敗するので「わ ちゃわ ちゃ」で trigram を grep。
「全参」も2005年8月に2件ひっかかるだけ。単語分割に失敗するので「全 参」で bigram を grep。
2016年9月30日追記: 「ちょいちょい」は2002年にはヒットするので昔からあったようだけど、使用頻度が徐々に上がっている。
不定期更新: このデータだと面白い結果が得られなかった例を適当に載せる。
- 「コミュ力」は2007年12月初出。その後あまり頻度が増えていない。「コミュ障」は2010年6月の6件だけ。
- 「ボコる」は2001年5月には既に出現するけど、散発的にしか使われないのでよくわからない。
- 「告る」は2001年2月には既に出現するけど、ずっと低頻度。
- 「爆ぜる」が「爆発する」の意味で再利用されだしたのは、2012年あたりからっぽくて、全然ヒットしない
- 「炎上」は字義的な意味とネット用語としての意味を区別するのが難しい。特に頻度が増加傾向にあるというわけでもない。
- 「勝ち組」は当然昔から使われていて、特によく使われる時期があるようにも見えない。
- 「ズッ友」も新しすぎてヒットしない。
- 「壁ドン」は2010年2月に6件ヒットするだけ。
- 「良さげ」など「形容詞語幹 + さ + 気/げ」は2001年にはヒットするから、相当前から使われている。
- 「ふつくしい」は「ふつ + くし」で2008年7月と2010年6月にヒットがある。
*1:readme では英語表記が Baidu Blog and Forum Timed Corpus となっている。timed は「テンポを取った」「(何かと) タイミングを合わせた」ぐらいの意味で、「時刻つきの」という意味にはならないと思う。自信ないけど。かといって dated というと何だか古いみたいに聞こえる。
*2:「まさか」と読む場合は確実に1形態素。「まぎゃく」の場合も ipadic の方針だと 1 形態素じゃないかと思う。
*3:ただし「真逆さ」を与えると「ま」+「さかさ」と分割された。
*4:未知語問題は Google N-gram にもあてはまる
*5:「だ」の後続は、「そのまさかだ」のように文脈の補助がいりそう。