Skip to content
馬場 高志2024/06/07 10:00:001 min read

生成AIは本当に世界を「理解」しているのか?|イノーバウィークリーAIインサイト - 4

ChatGPTに代表される大規模言語モデル(LLM)をベースとした生成AIの驚くべき能力が注目を集めています。自然な会話、質問応答、文章生成、コーディングなど、あらゆる分野で生成AIが人間を上回る結果を出しているとの報告が相次いでいます。一部の研究者やメディアは、「AIは人間を超えた」とさえ主張しています。前回の記事では、生成AIが高い推論能力を持ったことで、今後、人間が介在しなくても自律的に仕事をこなせるAIエージェントの利用が広まっていくだろうという予測を紹介しました。

 

しかし、果たしてLLMは本当に世界を「理解」し、高度な推論を行っているといえるのでしょうか?この問いを探るには、まず人間の知性と「理解」の本質について考える必要があります。今回は複雑系、認知科学、AIの研究者として知られるサンタフェ研究所のメラニー・ミッチェル教授のいくつかの記事の内容を中心に紹介します・

 

人間の知性と内部世界モデル

現代の認知科学によれば、人間は単なる条件反射の機械ではありません。私たちの頭の中には、世界における物理的・社会的な因果関係を反映し抽象化したモデルがあります。私たちはこの内部的な世界モデルを使って、可能な行動の結果をシミュレートし、予測します(「手に持ったコップを離せばどうなるか?」「機嫌の悪そうな親をからかうとどうなるか?」)。また、未知の状況での推論や計画も、このモデルに頼っています。そして、常に経験に基づいて、この世界モデルを更新しています。

 

さらに、私たちは外部の世界や他者だけでなく、自分自身に関するモデルも持っており、これによって自分の推論や意思決定のプロセスを評価し、説明することができます。このような世界モデルは、人間の知性の基盤をなしていると言えるでしょう。

 

生成AIは世界モデルを獲得しているのか

世界モデルの獲得は、長年のAI研究の焦点でした。研究者たちは、世界モデルをプログラミングしたり、データや経験から機械に学習させたりするさまざまな方法を試してきました。これらの取り組みは、ビデオゲームやロボット制御などのごく単純化された「世界」では一定の成功を収めてきました。

 

しかし、現実世界の複雑さに対応できる世界モデルの獲得となると、まったく別の話です。現在のLLMは、明示的に世界モデルを学習するようには設計されていません。LLMは、大量のテキストが与えられ、テキストの次の単語(トークン)を予測するようにトレーニングされているだけです。

 

それでも、大量のテキストから数兆ものトークンを学習したこれらの巨大なモデルは、世界と人間社会のなんらかの基本的な側面を把握しているように見えます。OpenAIの共同創業者であるイリヤ・サツケバーはあるインタビューで、LLMが世界モデルを学習していると主張しています。彼は、LLMは「世界、人々、人間の状況、希望、夢、動機のより多くの側面を学習しており、その圧縮され、抽象化され、利用可能な表現を学習している」といっています。

 

この大胆な仮説を裏付ける証拠はあるのでしょうか?

 

オセロゲームを学習したAIの内部表現の分析

言語モデルが暗黙のうちに「世界モデル」を学習するかどうか、ボードゲームのオセロを題材に探った最近の研究があります。オセロは8×8のマス目が使われ、ゲームは「プレイヤー1が、黒い駒をF5に置いた後に、プレイヤー1は白い駒をF6に置く」などプレイヤーの手を列挙することによって記述できます。

 

研究者たちは、オセロゲームのシミュレーターを使ってこのような手順を2,000万も生成し、それを使って「OthelloGPT」と呼ばれるニューラルネットワークをトレーニングしました。このニューラルネットワークには、ゲームのルールや、入力シーケンスがゲームを表していることすら教えられていません。与えられたのは、「F5に白駒の後にF6に黒駒が続く」などの手順を表す記号のシーケンスのみです。LLMが次の単語を予測するようにトレーニングされたように、OthelloGPTは64個の可能なマス目の記号のどれが次に現れるかを予測するように訓練されました。

 

学習後、OthelloGPTは、学習データに含まれていなかった手の流れに対しても、合法的な手を正確に予測できるようになりました。研究者たちはOthelloGPTのニューラルネットワークの内部活性化を調査できる仕組みを作り、何が起きているかを調査しました。

 

その結果、OthelloGPTはマス目記号のシーケンスだけで訓練されていただけなのにもかかわらず、ある時点でどの位置にどの駒があるか盤面の状態をコード化し、その内部表現を使って合法的な手を予測していることが確かめられました。

 

単純な「世界」から現実世界への大きなギャップ

このようにオセロのような超単純な世界では、言語モデルが何らかの世界モデルを獲得している証拠が得られました。しかし、これをもってChatGPTが現実世界とそこに住む人間の複雑なモデルを獲得しているとは言えません。オセロの例でも、人間が持つ世界モデルは、盤面の状態だけでなく、ゲームのルールをモデル化しているはずです。これによって、ゲームの戦略についての推論が可能になり、トレーニングで経験したのとはまったく異なる手に対応し、ゲームの新しいバリエーションにも柔軟に適応できます。

 

さらに、そのような世界モデルがあれば、自分の知識や意思決定を他者に説明できるようになるでしょう。このような一般的な能力は人間の理解の特徴ですが、生成AIはまだそこまで到達しているとは考えられません。LLMが獲得しているのは、現実世界の複雑さに比べればごく限定的で単純化された世界モデルにすぎないのです。

 

生成AIの評価の難しさ

上の図は、スタンフォード大学が最近発表した「The 2024 AI Index Report」に含まれている生成AIの性能の急速な進歩を示したグラフです。「画像分類」、「視覚コモンセンス推論」、「基本レベル読解」「マルチタスク言語理解」、「視覚推論」、「競技レベルの数学」などのベンチマークテストでAIが人間の基本レベル(点線)を既に超えているか、急速に追いつきつつあることを示しています。国際的な科学ジャーナル「ネイチャー」は、最近、このグラフを引用し「AIは今や基本的なタスクで人間を打ち負かした」と題した記事を掲載しました。

 

しかし、ミッチェル教授は、このようなベンチマークテストに関して、いくつかの大きな問題を指摘しています。

 

第一に、「データの汚染」の可能性です。テストの質問と答えがAIシステムのトレーニングデータの一部だった可能性があります。例えば、OpenAIは最先端のモデルのトレーニングデータについて一切情報を公開していないため、この可能性を確認することができません。

 

第二に、「近似的検索」の可能性です。同じ質問ではなくても、類似の推論パターンで解ける類似の質問がトレーニングデータに含まれている可能性があります。その場合、システムはより一般的・抽象的な推論ではなく、そのようなパターンに頼ってベンチマークの問題を解いているのかもしれません。

 

第三に、「ショートカット学習」の問題があります。AIシステムが、偽の相関関係や「ショートカット」に頼っている場合があるのです。有名な例としては、写真から悪性の皮膚がんを正しく分類したAIシステムが、実は画像に写っていた物差しの存在を重要な手がかりとして使っていたことが判明した研究があります(良性腫瘍の写真には物差しが含まれていないものが多かったのです)。また、あるベンチマークで高い性能を達成したシステムが、特定のキーワードが正解と相関していることを学習していたことを示した研究もあります。LLMは、人間が使う抽象的な推論を行っているのではなく、正解を予測できる言語の微妙な関連パターンを発見する能力が高かったにすぎない可能性があります。

 

第四に、「テストの妥当性」の問題です。ベンチマークテストでの成績が、現実世界での成績と相関しない可能性があります。

 

反事実的な設定によって見えたLLMの「近似的な検索」

こうした問題に対処するため、研究者たちは「反事実的なタスク」を使ってLLMを評価しています。反事実的なタスクとは、トレーニングデータとは異なる状況での性能を測定するためのものです。

 

例えば、ある研究ではGPT-4にチェスの初手がルールに則っているかを判断させる課題を課しました。GPT-4は、通常のチェスでは90%と高い正答率を示しましたが、ナイトとビショップの初期位置を入れ替えた変則のチェスの設定では成績が54%へと大きく低下しました。

 

この結果は、GPT-4は実際にはチェスの駒の動きのルールを「理解」しているのではなく、トレーニングデータから類似のパターンを「近似的に検索」しているだけである可能性を示唆しています。つまり、LLMは世界を本当に理解しているわけではなく、単に膨大なデータの中から類似のパターンを見つけ出すことに長けているだけなのかもしれません。

 

これは一例にすぎませんが、他にも複数の研究が、LLMがこのような「近似的検索」手法に依存している可能性を示唆しています。現在の生成AIはトレーニングデータに含まれていない未知の状況では、まだ理解のもろさが見られるのです。

 

現在の生成AIは人間のような「理解」には及ばない

LLMには、ゲームのような単純な世界モデルを学習する能力はあるにしても、人間の理解の特徴である、新しい状況に柔軟に対応し、知識を応用し、説明できるという一般的な能力は、まだ備わっていないとミッチェル教授は考えています。

 

現在の生成AIアーキテクチャの延長線上で、信頼できるAIに必要な本当の意味での「理解」が実現できるのかは、明らかではありません。言語モデルと記号的アプローチの組み合わせ、環境との相互作用の経験の取り込みなど、新しい種類のパラダイムが必要かもしれないとミッチェル教授は指摘します。

 

まとめ

生成AIの性能は驚くべきスピードで向上していますが、一部のベンチマークテストの結果から、生成AIが人間のように複雑な世界モデルで世界を理解し、一般的な推論や高度な計画を行う能力を獲得していると判断するのは早計といえそうです。

 

生成AIは、トレーニングデータに類似したタスクには非常に強力ですが、未知の状況では脆弱である可能性があります。したがって、ビジネスへの適用にあたっては、生成AIの得意な領域を見極め、人間の判断と組み合わせながら慎重に活用していくことが重要です。

 

参考記事

AI’s challenge of understanding the world

"AI now beats humans at basic tasks": Really?

Evaluating Large Language Models Using “Counterfactual Tasks”

 

avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。