AI は内心を攻撃する手段となる

1年近く経ってしまったが前回の続き。自分の研究がどこに向かっているのかを思案する。私が思い描く理想とは反対の、碌でもない未来を作る片棒を担いでいる気がする。今回はそのことを書き出してみる。

話の出発点は 2021年に招待講演にともなう解説記事的な論文に書いたネタ。AI、というかニューラルネットの応用として、人間を説明するという方向性を考えている。具体的には、まず人間の機能をニューラルネットに近似的に再現させ、次にそのニューラルネットの内部の振る舞いを適当な手法を使って説明する。ニューラルネットがいい感じに人間の機能を再現できていれば、ニューラルネットに対する説明は人間に対する説明として使えそう。人工知能の原義からいって、これは自然な着想だと私は思っている。しかし、なぜか世の中では見かけない。

例。これも解説記事に書いたが、2020年に発表した母語話者表現検出。母語話者表現は、例えば英語の to be a hard sell (人を説得して買ったり承諾させるのが難しいもの) のように、母語話者が使うが、熟練の L2 話者でも意味が取りづらいか、少なくとも自分ではなかなか使えない表現。これを母語話者が書いたテキストから検出する。そのために母語話者が書いたテキストを熟練の第二言語 (L2) 話者が書いたテキストと対照する。

この例では、ニューラルネットが近似的に再現すべき人間は、母語話者と熟練の L2 話者のテキストに長期間さらされた結果、「このテキストは母語話者っぽい」、「こちらは L2 話者に違いない」といった感覚を獲得した人。そうした人は、テキスト中のパターンと書き手の属性 (母語話者 or 熟練の L2 話者) との連合を学習しているはずだが、何を手がかりに母語話者らしさを感じたかは当人にとっても自明ではない。当人以外にとってはなおのことブラックボックス。

この人間を近似するニューラルネットは分類器。テキストを入力として、書き手の属性を予測する。ニューラルネットは複雑で、何が起きているか解釈するのは容易ではないが、人間と違って、少なくとも内部の振る舞いは観測できる。例えば、入力テキスト中のどの部分列が分類器の母語話者らしいという予測に強く貢献したかを分析できる。こうして見つけてきた部分列が母語話者表現ということになる。to be a hard sell のような複数単語からなる句、それも構成要素の単語自体はごく基本的なものも見つけてくる。私はこの点を気に入っている。

一歩引いてみると、これは何なのだろうか。この雑記で散々書いてきたように、ニューラルネットが実現しているのは条件反射的な直感。条件反射というと、教科書で見る行動主義を連想する。ただし、スキナーの時代と違い、入出力をつなぐ規則は人間が直接記述できないほど複雑。猿の視覚信号を受け取って、それを猿と認識する処理を人間が記述できないのと同じ。ともかく、入出力間に何らかのパターンがあれば、ニューラルネットは驚くほど柔軟にそれを学習してくれる。

さて本題。この先、何ができるだろうか。まずはニューラルネット研究の最近の進展を取り込むことを考える。大きく 2 つ。1つ目は事前訓練 (pretraining)。2020 年の研究ではまっさらなモデルを一から訓練した。データが大量にあった (1.5億文) のでそれが可能だった。最近は生テキストを使った事前訓練の威力が実証されている。事前訓練によって言語についてある程度知っている状態を作っておけば、それほど大量にデータが用意できないタスクへの適応も現実的になった。2 つ目は生成。分類器はテキストを encode するだけで、出力は複雑な構造を持たない。一方、GPT-* で有名になった巨大言語モデルは生成 (decode) 能力を備えている。何らかの入力刺激を受けてテキストを生成するタスクが取り扱える。

最近の進展を人間の説明という私の研究に取り込むと何が起きるか。人間がテキストを書くという行為をニューラルネットに近似的に再現させることで、人間の内部の振る舞い、つまりは内心を説明できる可能性がある。例えば、ある人物に着目し、Twitter のタイムラインを入力として、当人のツイートを生成する訓練を行うとしよう。その人物が社会正義を唱えるわりには、「正義」の適用先が選択的であるという仮説を立てたとする。この仮説をニューラルネットを使って検証するとすれば、「正義」のツイートを行う際にタイムラインのどこに着目しているかを可視化すると、言及対象の党派性に着目していることが明らかになるかもしれない。あるいは、タイムライン中の言及対象の党派性を改変した反実仮想のタイムラインをモデルに与えると、モデルが代理生成する当人のツイートがどのように変化するかを検証するという方向性もありえる。仮説があたっていれば、ある種のバイアスが浮かび上がるかもしれない。*1

注意すべきは、この営みは書くという行為を動物的にモデル化したものであるということ。読む側ではなく書く側。ましてや、書かれたものを字義的に読み、書かれていないことを勝手に推測しないというアスペルガー的理想からは程遠い。読み手の行為なかで近いものを挙げるなら、文を読まずに行間を読むという Twitter でよく見るアレ。*2 国語力の欠如したタイムライン動物園は AI の参入によっては解決されず、逆に地獄度が増す。

さて、ニューラルネットによる代理モデルから内心に関する説明が得られたとして、それが正しいと言えるだろうか。上述の例のように、対象の人物と分析者の利害が対立する場合には、対象の人物は得られた説明を否定する公算が大きい。

この問題に関係するのが羅生門効果。Breiman (2001) から始まる統計の文脈の議論では、データに同じくらい良くフィットするがデータの処理方法が異なる複数のモデルが生じたとき (それはよく起きる)、どのモデルに基づく説明を採用すれば良いかという問題。Breiman (2001) はニューラル以前の論考だが、D'Amour (2021) が述べる通り、overparameterize されたニューラルネットが機械学習業界を席巻したことで重要性が増している。おそらく羅生門効果を根本的に解決する方法はない。モデルのアンサンブルを使うという軽減策がよく使われるが、付け焼き刃的。そもそも言語自体が、集団によって担われているにも関わらず、それによって固定化するわけでもなく、時間とともに変化していく。

*1:こうした分析が古典的な計量的手法でできないわけではない。しかし、母語話者表現検出が基本単語の組み合わせを検出できたように、ニューラルネットの柔軟性は別次元。

*2:別の観点から見ると、だんまりを決め込むという不作為も行為の一種であり、モデルに説明させるのは比較的容易だろう。書かれたものを字義的に読むという方向性では、書かれていないものは扱えない。

murawaki の雑記

はてなグループから移転してきました

AI は内心を攻撃する手段となる