murawaki の雑記

はてなグループから移転してきました

何をもって知能とするか

人工知能の現在の研究状況をネタに与太話をするのであれば、singularity は的外れ。もっと先に議論すべき話がある。これ自体が与太話だが、そういう話をしてみる。

背景

2011 年に Jeopardy! というクイズ番組で IBM の Watson が人間に勝った。その頃から、SF か何かから出てきた singularity 業界が騒ぎ出した (らしいことを私は認知した)。その後、2013 年あたりから Deep Learning というバズワードが流行りだして、ますます楽しそうにしている (らしい)。「らしい」というのは自分で深く追いかけていないから。人工知能*1の実際の研究と関わりのないところで展開されている。Michael JordanYann LeCun のような大御所もこの話題には冷淡。

singularity 業界は人工知能の現状を知らない。そもそも、人工知能は何ができて何ができないかという現状認識について、研究者と世の中の間で大きな断絶がある。大きなニュースが続いた結果、実態を伴わない期待が膨れ上がっている。日本でも、人工知能業界の有名研究者が一般紙に出て、期待を煽り立てている (ように見える)。日経新聞でも読んでそうな、決定権を持っている人たちを動かそうという意図を感じる。そうやって、研究コミュニティを護送船団的に守ろうとしているように見える。その一方で、同じ研究者が、別の機会には、人工知能にまつわる誤解をとこうと奮闘していたりする。自分で煽り立てながら火消しもする、因果な商売である。Michael Jordan や Yann LeCun もそうだが、長く研究を続けてきた人は冬の時代を経験している。過剰な期待が失望にかわり、再び予算的に干上がることを恐れている。私はもちろん護送船団を率いる立場にはない。でも、世間の誤解は私にとってもリスクではある。偉い人が誤解に基づいて予算を配分し、やりたくもないことをやらされ、その結果失望されるなんて悪夢である。

何が問題か

singularity 業界は、計算機の知能が人間を上回る可能性ばかりを考えている。特に、計算機が自身よりも知的な計算機を複製できるようになれば、知能が加速度的に増幅する、と思っている。おそらく、研究の中心が論理推論だった時代の印象を引きずっている。知能を合理性や科学的な正しさといったものと漠然と結びつけている。でも、人間の知能はそういうものではない。少なくとも、それだけではない。

例から入る。Deep Learning によって急激に性能が向上した分野といえば画像認識*2。画像認識は、例えば、猫が写っている画像を入力して、そこに写っているのが猫だと計算機に認識させるタスク。何を計算機に教え込めばそんなことが可能になるか想像もできないかもしれない。でも、最近では、データセットによっては人間に勝ったという報告すらある。技術の進展は恐ろしい。

しかし、落ち着いて考えてみてほしい。画像認識ができたら知的といえるだろうか。そんなことは猿にでもできる。いや、もっと原始的な動物にだってできる。

Deep Learning が成功したもう一つの分野は音声認識音声認識は音響モデルと言語モデルを組み合わせおり、特に Deep Learning が効いたのは前者、つまり、音声信号と記号列を対応づける部分。これぐらいの能力は、人間以外の動物にも備わっているだろう。

こうして人間以外の動物を考慮するとわかる。最近の人工知能が実現したものは、「知能」という言葉から一般に想像されるものからずれている。とはいえ、画像認識も音声認識も商業的な需要があふれている。計算機は賢くなったと宣伝しなければならない。お金を握っている連中に対して、「猿が実現できました」なんて口が裂けても言えない。まさに POISON。

Watson はどうか。あれは連想ゲームを奇形的に発達させたものだと思えばよい*3。例えば、This 'Father of Our Country' didn't really chop down a cherry tree. という設問を考える。どうやって答えの George Washington を導くか。This 'Father of Our Country' という句から、人についての質問だと推定できる。Father of Our Country、chop down a cherry tree といった句で文書を検索して、結果から人を抽出して、適当に順位づけするといった具合。

あれはあれでそれなりに商業的な需要があるのだろう。しかし、あんなもので言葉を理解したことにはならない。あれを見て偉い人が誤解すると困る。実際にはまだ実現できていないものができた扱いになると、それを本当に実現しようとする研究が潰されてしまう。現に、ビッグデータという別のバズワードと渾然一体となって、実用化一辺倒の体制に予算的に誘導されている。生きづらい。

記号幻想

上で、singularity 業界は人工知能研究が論理推論をやっていた時代の印象を引きずっていると書いた。ここで昔の研究を振り返ってみる。内容的に去年の記事と重複あり。

意味というものをどう扱えばよいか、誰も正解を知らなかった。これは今でもわからない。論理業界では、概念にとりあえず atomic な記号を与える。猫に Cat とか。そして記号同士の関係を記述する。Cat は Mammal と is-a 関係にあるとか。そうした関係に基づいて推論を行う。このやり方には 2 つ課題がある。一つは素朴な論理体系だと簡単に破綻する。どういう体系を設計するか。もう一つは、knowledge acquisition bottleneck と呼ばれる問題。この世界の知識をとても記述しきれない*4

後者の知識記述については、自然言語のテキストから獲得するという方向で研究が進んできた。そうした研究はここ 10 年ぐらい流行っていた。特にウェブテキストが大量に手に入るようになってから。私もかつて手を出した。しかし、そろそろ限界だと思う。話は簡単。仮に記号の数を N=10 万とする。単純な事態に対応するのが「A が B を P する」という 3 つ組だとすると、組み合わせは O(N^3)。それなりに面白い推論をやろうと思ったら、「A が B を P すると D が E を Q する」といった事態間関係の知識も必要。そうなると O(N^6)。数え上げおねえさんも涙目である。*5しかも、言語は冪乗則に従う。高頻度な語はわずかで、低頻度な語が大量にある。当然、低頻度な語の組み合わせも大量に出てくる。いくらテキストを集めても被覆できない。そうした未知の表現でも人間は問題なく理解できる。しかし、計算機は困る。従来研究がどうしてきたかというと、上位下位関係等を使って式の汎化を行ってきた。しかし、そもそも記号を atomic に扱うところに限界があるように感じている。

テキストからの知識獲得を試みている時点で、古き良き人工知能像とは決別している。合理性や科学的な正しさから程遠い場所に来ている。テキストに書かれているのは、正しさとして一般に想像されるものとは違う。いろんな人がよく言っている何かでしかない。既に述べたように、そもそも現状では知識の整理があまりうまくいっていないが、仮にうまくいったとする。それでも、三段論法を使おうと思っても、大前提が真か偽かも怪しいし、小前提も怪しいし、だから結論も怪しい。計算機の中でぐるぐる推論をまわすと、仮に出発点が真であっても、数 hop 先は信頼度が著しく低いものになってしまう。

結局、この世界を正確に写像したものを計算機が持つことなんてできないし、正しい規則に基づいてこの世界の未来を予測することもできない。信頼できない観測と、信頼できない知識を使って、信頼できない planning をするしかない。その点では人工知能は人間と変わらない。

2006 年頃、「現在の人工知能研究の先には新興宗教にはまる計算機が出てくる」というネタを思いついたが、知人の反応が悪かったのでお蔵入りした。それから 10 年近くたったが状態に変化はない。人間を超える知能という楽観的な妄想がどこから来るのか不思議で仕方がない。

テキストの限界

上で Deep Learning に触れた際に意図的に飛ばした話題に、意味の分散表現がある。King - Man + Woman ≒ Queen の例で有名になったアレである。こういう結果を見ると、意味というものに過剰に思い入れを投影しそうになる。しかし、落ち着いてモデルの式を見ると、やっていることは目的関数の最適化。目的関数を最大化 (最小化) するような何かを学習しているに過ぎない。例えば、評判分析で学習しているのは、意味の中でも極性 (positive か negative か) に関わる部分だけ。multi-task learning で、複数のタスクで共通の意味表現を用いる試みもあったが、あまりうまくいかないと聞く*6。学習しているものが、タスクごとに全然別々なのだろう。現状では、意味というものを包括的に捉えることはできていないように思う。

猿を作ろう

やはり自然言語処理は画像認識や音声認識とは性質が違う*7。画像認識や音声認識には多少なりとも生物的な基盤があるが、自然言語処理にはない。砂上の楼閣というか、砂の上にすら建っておらず、ふわふわと浮かんでいる感じ。もちろん人工知能を作るために人間を模さなければならないとは限らない。でも、テキストという人間の生成物を利用するのであれば、人間がやっていることからかけ離れたやり方で知能を実現できるとは思えない。

自然言語がいつ誕生したかには定説がない。仮に 20 万年前だとする。明らかなのは、進化の過程で、自然言語よりも知能が先行すること。言語が誕生した時点では、エピソード記憶や手続き記憶を当然備えていたはず。再帰的な操作もできるようになっていたのではないか。言語より前に、伝えたい意味を人間は持っていただろうし、相手が伝えたいことを推測する能力も持っていた。言語の意味解析をやろうとすると、言語から意味への一方向の写像を考えがちだけど、おそらくそれだけでは無理。音声認識における言語モデルのように、意味側で自然さを考慮する (相手の伝えたいことを推測する) モデルが必要。テキストの世界に閉じたまま意味を捉えるのは無理がある*8

結局何が言いたいかというと、人間を上回る知能を妄想する前に、まず猿、特に人間に近いゴリラやチンパンジーの知能を実現することを考えた方が良い。それを実現することが科学の大きな進歩だという認識が広がってほしい。そして、すぐに役に立たなさそうに見えても予算的に締め上げないでほしい。

仮に猿が実現できて、次に人間を実現しようとなったとき、最初にできるのは高度な知能と一般に想像されるものではないだろう。むしろ、次々と迷信を生み出すような何かのはず。人間を上回る知能なんて、そういうものが実現できてから考えれば良い。そういう基盤ができれば、科学的手続きをどうエミュレートするかといった問題に取り組めるようになって、科学哲学系の議論に実体を与えられるようになるかもしれない。

*1:ふと思いついて調べてみたところ、「人工知能」という言葉を自分で書いた日本語論文で一度も使ったことがない。

*2:画像認識は私の専門ではない。ディープ・ラーニングと 画像処理・画像解析セミナーというスライドが私にような門外漢にもわかりやすい。

*3:もちろん私は Watson の詳細を知る立場にない。地道な言語処理研究の積み重ねであることは間違いない。しかし、それはここでは重要ではない。

*4:知識の記述を何十年も延々と続けているプロジェクトも存在する。

*5:2015 年 5 月 7 日追記: O(N^6) 程度では数え上げお姉さんは涙目にならないとのツッコミを頂戴した。元のビデオを確認した。ご指摘の通りだった。

*6:非公式に聞いた。残念ながら negative result は論文にならないことが多いので。

*7:精度面でも、両者は違う。自然言語処理では、Deep Learning 系の手法は既存手法の性能を大幅に上回るということが基本的にない。良くても同等か、少し上回る程度。

*8:もしかしたら言語と画像との対応を学習するのは近似としては有望かもしれない。