はじめに:AGIは間もなく完成する?
AGI(Artificial General Intelligence: 人工汎用知能)の実現は近いという意見を聞くことが増えてきました。
最近のニューヨーク・タイムズ記事では、テクノロジー・コラムニストのケビン・ルースが、多くの一流のエンジニア、研究者、起業家と会話した結果、AGIは早ければ2026年、もしかしたらもっと早く出現するかもしれないと述べています (ルースはAGIを、人間ができるほぼすべての認知タスクを実行できるシステムと定義しています)。
このような声が高まっている大きな理由として、推論モデルの出現があります。OpenAI o1、DeepSeek R1などの推論モデルは、応答する前に、複数の内部推論ステップを実行することによって、より複雑な問題を解決することができるようになりました。
特に2024年12月に発表されたOpenAI o3は数学、科学、プログラミングといった専門的な分野で驚異的な性能向上を示しました。それだけでなく、AGIへの進捗を測定するために考案されたARC-AGIと呼ばれるベンチマークでも高い性能を実現したため、AGI(人工汎用知能)に近づく新たなパラダイムを示すものとして注目されました。
なお、ARC-AGIは、以前のコラムで解説したように、人間には比較的容易に解けるものの、AIにとっては極めて困難なパズルのような問題を集めたベンチマークテストです。o3は、従来のAIモデルのスコアが30%程度に留まっていたこのテストで76%(低計算モード)という画期的なスコアを達成しました。
しかし、2025年3月24日(米国時間)にARC-AGIコンテストを主催する非営利団体The ARC Prize Foundation(以下ARC財団)は、よりチャレンジングな新バージョンARC-AGI-2を発表しました。ARC-AGI-1で76%を達成したOpenAI o3-lowはARC-AGI-2ではわずか4%の正答率に留まりました。また、Google Gemini 2.0 FlashやDeepSeek R1は1.3%、Anthropic Claude 3.7は0.9%という低スコアに終わっています。
本稿では、このARC-AGI-2とARC-AGI-1の違い、その意味について、ARC財団のブログ記事や、共同創設者であるフランソワ・ショレとマイク・クヌープへのインタビュー動画を参考に、考察します。
ARC-AGI-2:流動性知能を測るテスト
ARC-AGI-2はARC-AGI-1よりも、AIにとってはるかに難しくなっていますが、人間には比較的簡単に解けるという特徴を維持しています。
ARC財団は、ARC-AGI-2の人間にとっての難易度を測定するために400人以上が参加した対照実験を行いました。そして、少なくとも2人の人間が2回以内の試行で正解できた問題のみをARC-AGI-2に採用しました (AIに対しても1つの問題に2回の試行を許すルールにしています)。参加者全体の問題セットの平均正答率は60%でした。
フランソワ・ショレは、AGIを「少ないデータから効率的に新たなスキルを習得し、見たことのない新たな問題を解決できる能力」であると定義しています。オリジナルのARC-AGI-1も、学習データセットを単純に「記憶」する能力だけでは解けないことを目指して作成されました。
ARC-AGIには、トレーニング用問題セットと、コンテストで使用される未公開の問題セットを含む複数の評価テスト用問題セットが用意されています。トレーニング用問題セットは、評価用問題を解くために必要なコア知識を事前に学習することを目的としています。 コア知識とは、物体、数字と数え方、目的指向性、回転や対称性などの基本的な概念のことです。評価用問題を解くためには、AIシステムは、これまでに見たことのない新たな問題に対し、コア知識を組み合わせることによって解く適応能力を示さなければなりません。このように、これまでに見たことのない新しいタスクに適応する能力を認知心理学の用語で流動的知能と言います。
ブログ記事では、「例えて言うなら、トレーニング用問題は小学校の算数の記号を学ぶ方法であり、評価用問題ではそれらの記号の知識を使って方程式を解くことを要求されると考えてください。 単に答えや公式を暗記するのではなく、既存の知識を新しい問題に応用しなければなりません」と説明しています。
ARC-AGI-1で高いスコアを出したo3のようなAIは、本当に人間のように高い流動的知能を持っていると言えるのでしょうか?ショレたちは、o3が一定の流動性知能を持っていることは間違いないが、その程度については疑問だと考えています。ARC-AGI-1には、基本的な操作の考えられるすべての可能性や組み合わせをしらみつぶしに試すことで正解を見つけ出す「ブルートフォース(brute force:力任せ、総当たり)」的手法で解けてしまう問題が多いという欠陥があったからです。
このため、ARC-AGI-2は、「ブルートフォース」では解けないよう、高い適応性と効率性の両方を必要とする基準が設けられました。
推論モデルの適応性の弱点を示すARC-AGI-2の問題例
ARC-AGI-2の開発にあたっては、現在の最先端の推論モデルの弱点が研究されました。ブログ記事では、人間には解けたが、推論モデルには解けなかった問題の特性と例がいくつか紹介されています。
記号の解釈
推論モデルは、記号をその視覚的パターンを超えた意味を持つものとして解釈する必要がある問題に苦戦していることが分かりました。 推論モデルは、パターンの対称性チェック、反転、変換などの操作を試みますが、シンボル自体の意味を解釈することができませんでした。
構成的推論
推論モデルは、複数のルールの同時適用や、相互に作用する複数のルールの適用を必要とする問題に苦戦します。 対照的に、問題に全体に適用されるルールが1つだけ、あるいはごくわずかしかない場合、推論モデルはルールを発見し、適用することができます。
文脈に応じたルールの適用
推論モデルは、文脈に応じて異なるルールを適用しなければならない問題に苦戦します。AIは、根本的な原理を理解するよりも、表面的なパターンに固執する傾向があります。
ARC-AGI-2の例題はこちらで実際に試すことができます。
効率性評価の導入
ARCチームは、知能とは、問題を解決する能力や高いスコアを達成する能力だけで定義されるものではない、と考えています。 それらの能力を獲得し、展開する効率性が、重要で決定的な要素になります。効率性の指標としては客観的な比較が容易なコストが使用されています。 問われているのは、「AIはタスクを解決するスキルを習得できるか」だけでなく、「どのような効率やコストで習得できるか」ということです。
o3はARC-AGI-1で非常に高いスコアを記録しましたが、1つの問題を解くのに低計算モードで約200ドル、高計算モードでは数万ドルものコストをかけています (最近のTechCrunchの報道で2024年12月o3発表時のARC財団のグラフではo3コストは約1/10も過小評価されていたことが明らかになりました)。
下記のグラフは、ARC-AGIにおける性能(縦軸)と1問当たりに費やすコスト(横軸)の関係を示しています。一般にコストを増やすと性能は上がりますが、ARC-AGI-2ではo3-miniのカーブもo1 Pro/o3のカーブも大幅に下方シフトしています。これは、o3が高い計算コストをかけても低いスコアしか達成できず、まだARC-AGI-2が要求するレベルの高い流動的知能を持っていないことを示しています。
ARC-AGI-1対ARC-AGI-2における最先端AIシステムのスコア
リソースと時間を無制限に費やせるならば、「ブルートフォース(総当り)」的手法で最終的にARC-AGIを解くことができることは分かっています。しかし、これは真の知能とは言えません。 知能とは、解を効率的に見つけることであり、網羅的に見つけることではないのです。 このため、ARC-AGIでは、今後、コストを明確に定量化し、リソースの効率的な使用も評価の基準とすることにしました。ARC-AGIの新しいリーダーボードのページでは、スコアとコストの両軸で進捗状況が報告されることになりました。
スコアと効率性の両方を示すARC-AGIの新たなリーダーボード
ARC Prize 2025
ARC財団は、ARC-AGI-2における性能を競うARC Prize 2025コンテストの開催を発表しました。50ドル以下の計算コスト予算内で評価用問題セット(120題)において85%以上の正答率(2回の試行で)を達成したモデルには70万ドル(1ドル150円換算で1億500万円)の賞金が与えられます。
おわりに
推論モデル、特にOpenAI o3がARC-AGI-1で画期的な成果を上げたことでAGIへの期待が高まりましたが、ARC-AGI-2は、そのo3ですら数%の正答率にとどまる難易度を持っています。これは、現在のAIが持つ能力と、人間が持つ流動的知能との間には、まだ大きな隔たりがあることを明確に示しています。
ARC-AGI-2は、「記号の解釈」「構成的推論」「文脈に応じたルール適用」といった現在の推論モデルがまだ苦手とする側面を浮き彫りにしました。さらに重要な点として、問題解決の「効率性」を知能の重要な要素と捉え、評価指標に組み込んだことが挙げられます。単に正解できるだけでなく、いかに効率的に解を見つけ出すかが、今後のAGI開発における重要な焦点となります。
しかし、ARC-AGIの主催者たちは、ARC-AGI-2を打ち破るAIモデルが現れることを疑っていません。マイク・クヌープはインタビュー動画で、ARC-AGI-1はそれを打ち破るAIモデルが現れるまでに5年かかったが、ARC-AGI-2はそれほど長くもつとは思わないと述べています (ただし、彼はARC-AGI-2が今後1〜2年間は研究者にとって非常に有用な指標であり続けることを期待しているとも述べています)。
今後、ARC-AGI-2と、それを用いたコンペティション「ARC Prize 2025」は、AGI研究開発の方向性を定める「北極星」として機能することが期待されます。AIの能力とその限界を正しく理解することは、ビジネスにおけるAI活用戦略を考える上でも不可欠です。私たちは、AIの進化が一筋縄ではいかないことを認識しつつ、その可能性と課題について、引き続き注目していく必要があると言えるでしょう。
参考記事・動画:
- 「強力なAIがやってくる。我々は準備ができていない」 ニューヨーク・タイムズ (3月14日)
- 「ARC-AGI-2 + ARC Prize 2025 is Live!」
- 「ARC Prize Version 2 Launch Video!」
- 「OpenAIのo3モデルは当初の見積もりよりランニングコストが高いようだ」 TechCrunch (4月2日)
