Skip to content
Innova-AI-wekly-13
馬場 高志2024/08/09 10:00:001 min read

AIが苦手なパズル:ARC-AGIベンチマークが示唆するAGIに向けての課題|イノーバウィークリーAIインサイト -13

 

OpenAI、Anthropic、Googleなど、AI開発をリードする企業は、人間のような汎用的な知能を持つAGI(Artificial General Intelligence, 人工汎用知能)の実現を目指しています。

そして、彼らが開発する大規模言語モデル(LLM)をベースとした生成AIは、知能を測るさまざまなベンチマークで、すでに人間に匹敵あるいは凌駕する成績を出しています。

大規模言語モデル(LLM)に関する関連記事:生成AIは本当に世界を「理解」しているのか?|イノーバウィークリーAIインサイト - 4

また、米国の医師国家試験や司法試験で合格できるレベルの正答率を示したという報告もあります。

現在の延長線上にAGIはあるのでしょうか?それとも、AGIの実現に向けはまだ残されている何か大きな課題があるのでしょうか?最近、ARC-AGIと呼ばれるベンチマークのコンテストが注目を集めています。ARCはAbstraction and Reasoning Corpus(抽象化と推論のコーパス)の略でAGIへの進捗を測定するために考案されたベンチマークです。今回はこのARC-AGIを考案者であるフランソワ・ショレ氏をインタビューしたポッドキャスト(https://www.dwarkeshpatel.com/p/francois-chollet)の内容を紹介します。

 

ARC-AGIとARC Prize 2024コンテスト

ARC-AGIは、 Google の研究者であるフランソワ・ショレ氏が2019年に考案したベンチマークテストです。ショレ氏は機械学習の研究開発に役立つPythonで書かれたニューラルネットワークライブラリの開発者・管理者として有名なAI研究者です。

ARCの問題は、カラフルなタイルで表現されたグリッド図形からパターンを見つけ、そのパターンに基づいて新しい図形を作成するというものです。3×3や4×4、5×5などのグリッドに配置されたタイルの規則性を理解し、その規則に従って新しいグリッドを埋めることが求められます。

aiweekly13-1

aiweekly13-2
ARCの問題例:左のInput→Outputの3つの例から規則性を見出し、右上のInputに対するOutputを答える

これらの問題は人間にとっては比較的簡単で、平均正解率は84%に達します。しかし、ARCが公開されてから約5年経過しているにもかかわらず、AIの最高スコアは30%程度にとどまっています。

ショレ氏はWebアプリケーション「Zapier」の共同創設者マイク・クヌープ氏と共に、現在AGI研究を促進するために、「ARC Prize 2024」コンテストを開催しています。このコンテストでは、総額110万ドル(1ドル155円換算で1億7050万円)の賞金が用意されており、85%以上のスコアを達成したチームにグランプリの50万ドルが贈られます。85%に達しなくても、今年度の上位5チームには合計5万ドルの賞金が与えられます。

コンテストは2024年6月11日に開始され、11月10日が提出締切、12月3日に結果発表が予定されています。AGI研究の進展につながる成果の共有を目的にしており、参加者には、解法をオープンソース化することが求められています。

なぜLLMはARC-AGIで苦戦するのか

フランソワ・ショレ氏によれば、LLMがARCで苦戦する主な理由は、LLMの問題解決法が記憶だけに頼っているところにあります。

LLMは基本的に大規模な補間的メモリとして機能しています。LLMは膨大な量の知識とそれに対応するプログラムのテンプレートを記憶しているようなものです。そして、問題を与えられるとパターンマッチングにより、テンプレートを選び、値を入力して問題を解きます。私たちが数学の問題を解くときに、暗記した公式を思い出して当てはめて解くのと同様です。この方法は既知の情報や類似した問題に対しては非常に効果的ですが、全く新しい種類の問題には適応できません。

ARCの各パズルは新規性が高く、インターネット上の既存のデータセットには含まれていない可能性が高いものです。そのため、記憶されている解決パターンを単純に適用するだけでは解決できません。

ARCは、4から5歳の子供でも持っているコア知識だけで解けるように設計されています。コア知識というのは物体、数字と数え方、目的指向性、回転や対称性など幾何学の基本的な概念のことです。記憶にある解決パターンで解けない場合、人間は、問題に合せてその場でコア知識や既存の解決方法の部分や切れ端を組み合わせてあらたな解決法を見出していると考えられます。

LLMは、より多くの知識やパターンを取り込むことで問題解決のスキルを増やすことができますが、ショレ氏はスキルと知性は異なるものだといいます。ショレ氏は汎用的知性を、少ないデータから効率的に新たなスキルを習得し、見たことのない新たな問題を解決できる能力であると定義しています。世界は常に変化し、予めすべてを予想することは不可能なので、人間はまったく新たな事態に対応するための知性を進化させてきたのです。

現在のLLMはこうした意味での知性を持っていないので、ARCで高いスコアをあげることができないのです。ショレ氏はARC-AGIで人間を越えるスコアを出すシステムができれば、それがAGIであるといっているわけではありません。しかし、AGIに到達する道筋でARC-AGIが提示するような課題を乗り越える必要があると考えています。

 

システム1思考とシステム2思考

人間の思考プロセスを理解する上で重要な概念に、心理学者ダニエル・カーネマンが提唱した「システム1思考」と「システム2思考」があります。これらの概念は、AIの能力を評価する際にも有用な視点を提供します。

システム1思考は、直感的、自動的、高速で行われる思考プロセスです。日常的な判断や反射的な反応などがこれに該当します。LLMは、このシステム1思考に近い機能を持っています。大量のデータから学習したパターンを高速に適用し、迅速な反応を生成しているのです。

一方、システム2思考は意識的、論理的、そして比較的遅い思考プロセスです。複雑な問題解決や新しい状況への適応などがこれに該当します。人間はシステム2思考を用いて、未知の問題に対して段階的に推論を組み立て、必要に応じて方針を修正しながら解決策を見出します。

現在のLLMは、システム2思考に相当する能力が不足しています。つまり、新しい状況に直面した際に、基本的なコア知識から論理的な推論を組み立てる能力や、問題解決の過程で学習しながらアプローチを修正する能力が限られているのです。ChatGPTは、複雑な問題だからといって時間をかけるということはなく、単純な問題と同じ速さで回答を生成します。これは、システム2的な思考プロセスを行っていないことを示しています。

ARCのような問題を解くためには、システム2思考に相当する能力が不可欠なのです。各問題が新規性を持ち、単純なパターンマッチングでは解決できないため、段階的な推論と動的な学習が必要となるのです。

 

ARCを解くために必要なアプローチ

ARCベンチマークが示唆する課題を克服し、真のAGIに近づくためには、現在のAI研究のアプローチに大きな変革が必要かもしれません。ショレ氏は、以下のような方向性を提案しています:


その場での学習(On-the-fly学習)

LLMは基本的に事前学習が終了するとモデルは固定され、推論時に問題に対応して変わることはありません。まったく新規の問題に対応するには、その場で学習するメカニズムが必要と考えられます。


プログラム合成とプログラム探索

問題の解決策を、基本的な操作や関数の組み合わせとして表現する能力です。これは、問題を解くための「プログラム」や「アルゴリズム」を自動的に生成することを意味します。これによって、多くのプログラムを作成し、どれが目的に合うかを探るプログラム探索のアプローチが必要になります。


LLMとプログラム探索の融合

LLMはシステム1思考的なパターン認識や記憶に優れているのに対して、プログラム合成/プログラム探索はシステム2思考的なプランニングや推論に優れるという補完的な特徴を持っています。プログラム探索による推論をメインのプロセスにしますが、プログラム探索にはあらゆる組み合わせを探るので計算量が膨大になってしまうという欠点があります。LLMの強みであるパターン認識や記憶によって、プログラム探索の範囲を絞り込みむという補完的なアプローチが有効と考えられます。これは将棋やチェスの名人が、経験によって深読みすべき手順の範囲を絞り込むことができることに似ています。

 

おわりに

現在のAIの開発は、ますます大量の計算機とデータを投入すればよいというスケールアップ競争に偏っているのではないかとショレ氏は懸念しています。ショレ氏は、新たな状況に対応して新たなスキルを習得するという意味での真の知性を獲得するためには、新しいアプローチが必要ではないかと考えています。

ARC Prize 2024のような取り組みは、研究者たちに新しい視点と挑戦の機会を提供し、AGI研究の新たな展開を促進することが期待されます。LLMは、ますます多くの知識とパターンを取り入れることで、ますます多くの仕事に適用できる有用なスキルを備えていくでしょう。しかし、科学を進展させる新たな発見や気候変動やエネルギー問題など未解決の複雑な問題に取り組むためには、プログラム合成やプログラム探索のような新しいアプローチが必要とされるのかも知れません。

ARC-AGIが提起する課題は、AI開発者だけでなく、ビジネスリーダーや政策立案者にとっても重要な意味を持ちます。現在のAI技術の限界を理解することで、AIの適切な活用範囲や将来の可能性をより正確に見極めることができるからです。ARC-AGIのような取り組みを注視し、AI技術の進化の方向性を理解することは、未来を見据えた戦略立案や意思決定において極めて重要だといえるでしょう。

avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。