murawaki の雑記

はてなグループから移転してきました

アンケートはやりたくないけど人間の語彙学習には興味がある

語彙の学習について、SocialDict - 英文Webページのスマートな注釈・辞書引きシステムのスライドを眺めていて考えたこと。元スライドとはあまり関係なくなった。

発表は、語彙力の推定に他の利用者から得られる手がかりを利用するというもの。実験も、大量の他人のログを与えたときの少量の一人のログを評価している。

人間が直接利用するシステムを作るから、やることはいろいろある。どうやって解くか以前に、そもそも何を解くか。モデルをどうするか。UI の設計が (論文的にはともかく) 実際上重要だとか。モデルに関しては協調フィルタリング系の話らしい。でも、この分野を追いかけてないから知らない。知らないなりに自分の興味に合わせて適当なことを書く。

注目したのは online 学習であること。もっとも、stochastic gradient descent がどの程度気の利いた振る舞いをするのか知らない。*1気になったのは個別手法以前の問題設定。利用者の作業ログから逐次的に学習するという枠組み。

仮に利用者がシステムを長期間利用したとすると、その間に利用者は語彙を学習していくはず。それは観測対象の変化を意味するのではないか。発表は、SBM との類似を主張しているが、SBM では、利用者の興味が変化するという仮定は必ずしも必要ないかもしれない。データを増やすことで、推定をある真の分布に近づけられそうな感じがする。しかし、語の学習については、利用者が変化すると考える方が自然だ。大抵の確率モデルは i.i.d. を仮定しているはずだが、それで良いのか気になる。

とは言うものの、特に対案があるわけではない。とりあえず予想されるのは、利用者の変化を追う実験が大変そうということ。長期的なデータを採取するのは大変。しかも、利用者の挙動がシステムのその時々の状態に依存していると再現実験がやりにくい。

ひとまず実験のことは忘れる。人間の動的なデータが採取できると、いろんな調査ができそうで夢が広がる。語彙に関するこれまでの調査は、(1) 静的なデータに依存し、(2) 基礎語彙に偏っていたから。単語親密度と頻度の関係とか、教科書コーパスから難易度を推定するとか。

私の興味は、言語獲得っぽい立ち上がり段階よりも、基礎語彙を知っている状態で残りの語彙を獲得する段階にある。つまり、このシステムが対象とするような人間。人間は語が何度か出てきたらそのうち覚えるだろうし、しばらく見ないと忘れるだろう。忘れ方にも段階があって、見覚えがある場合もあれば、存在自体を忘れている場合もあるだろう。その辺りの動的変化が実際のところどんな感じなのか知りたい。

*1:追記: 9月28日の NL 研でほぼ同じ発表を直接聞いた。現在のモデルは利用者のパラメータが1個のスカラー値だけで回帰させるので、そもそも利用者ごとの細かい制御はできないとのこと。