馬場高志2026/04/10 10:00:012 min read

AGIへの次なる関門～最先端AIモデルでもスコア１％未満の「ARC-AGI-3」登場｜イノーバAIインサイト -89

ARC-AGIは、元GoogleのAI研究者フランソワ・ショレ氏が開発した、汎用人工知能（AGI）に必要な「知能」を測定するベンチマークです。人間には容易でも、AIには難しい課題を集めたテストとして知られています。本コラムでも、これに注目し、2019年に公開された「ARC-AGI-1」と2025年3月に登場した「ARC-AGI-2」について紹介してきました　（イノーバAIインサイト No.13, No.47)。これらのバージョンは、その後、推論性能の向上などAIの目覚ましい進歩によって、人間並みのスコアが達成され、ほぼ攻略されたといえます。

しかし、2026年3月に新たに発表された「ARC-AGI-3」は、人間であれば100%クリアできる課題でありながら、最先端のAIモデルでさえ1%未満のスコアに留まるという、新たな難関を突きつけています。本記事では、ARC-AGI-3の仕組みを解説するとともに、そこから見えてくる人間とAIのギャップを整理します。

「スキル」より「適応力」——ARC-AGIが定義する知能

「経済的に価値のある仕事の大半を自動化できるシステム」という一般的なAGIの定義は、一つの有用な目標ではありますが、ARC-AGIの考え方では、知能そのものを測る指標としては適切ではないとされています。特定のタスクにおけるスキルの高さは、事前知識や学習データの量に大きく左右されるため、それだけでは本質的な知能を捉えきれないからです。

ARC-AGIが測定しようとしている「真の知能」とは、スキルや知識の量そのものではなく、「未知のタスクに対して、どれだけ効率よく新しいスキルを獲得できるか」という能力です。言い換えれば、開発者が想定していない新たな問題に対しても、どれだけ素早く学習し、適応できるかを指しています。このような観点から、ARC-AGIが捉える知能のポイントは以下の通りです。

「結晶性知能」ではなく「流動性知能」に注目する: 過去に蓄積した知識やスキル（結晶性知能）に頼るのではなく、未知の問題に直面した際に適応し、推論する力（流動性知能）に焦点を当てています。

「スキル」ではなく「汎化能力」を重視する: 真の知能の核となるのは、スキルそのものではなく、限られた情報（普遍的な中核的知識）から一般的な法則を導き出し、未知の事例に応用できる「汎化能力（Generalization）」です。

「学習効率」を知能の指標とする:　経験と事前知識をいかに効率的に新しいスキルへと変換できるか（学習効率）が知能の指標となります。ARC-AGIにおけるAGIの定義とは、まさに「人間の学習効率に匹敵するシステム」のことです。

ARC-AGI-1から3へ——AIの限界を更新し続けるベンチマーク

ARC-AGI-1とARC-AGI-2は、色のついたグリッドの入力と出力のペアを数例（2〜3個）見て、そこにある共通のルールを導き出し、新しい入力に対する正しい出力を回答するパズル形式の課題です。

ARC-AGI-1問題例

ARC-AGI-2問題例

ARC-AGI-2は、複数ルールの組み合わせが必要だったり、周りの状況（文脈）によって適用するルールを変えなければならなかったり、求められる推論の複雑さが増しました。それぞれのスコアの向上は、重要なAIの進歩の瞬間を正確に捉えてきました。

ARC-AGI-1：2019年の導入から2024年後半まで、推論モードを持たない純粋なLLMはスケールアップしても流動性知能を示さず、2024年5月に発表されたGPT-4oでもスコアはわずか5%でした。2024年12月、推論時に深く思考する能力を持つ「大規模推論モデル（OpenAI o1やo3）」の登場により、スコアは75%へと急上昇しました。これはAIが単なるパターンの暗記ではなく「流動性知能」を持ち始めたことを示しています。

ARC-AGI-2：2025年3月に導入された ARC-AGI-2は、より深く複雑な推論を求めるものとして設計されています。初期の推論モデルでも最初はスコアが低迷していましたが、2025年12月にOpus 4.6やGPT 5.2などの最先端モデルの登場によって、一桁だったスコアが70%に達しました。これらのモデルは検証可能な報酬（Verifiable rewards）を活用した強化学習によって、コーディングを自動化できる水準に達しています。最先端のAI開発企業は、ARC-AGI-2で高スコアを達成するために推論モデルに以下のような自己学習ループを組み込んでいると考えられます。

ARCに似たタスクを自動生成する
自ら解く
正解を検証する
成功した推論をもとに自己改善する

最先端モデルのARC-AGI成績推移　(出典：ARC-AGIテクニカルペーパー)

推論モデルの限界

現在の推論モデルが自動化において高い能力を発揮できるのは、「基盤モデルがその領域の十分な知識を持っていること」と「正解を検証可能なフィードバックが存在すること」という2つの条件が揃っている領域に限られます。人間の推論能力は特定の領域知識に縛られませんが、現在の推論モデルの知能は依然としてタスク特化型の訓練に縛られている状態です。

プログラミングや数学のような検証可能な領域では、AIが自ら試行錯誤して学習データを大量に生成できるため飛躍的な進歩が可能ですが、エッセイの執筆や法律など、検証が難しい領域ではこのアプローチは停滞します。さらに、ドメイン知識の収集や検証システムの構築には非常にコストがかかるため、真に未知の領域をカバーし、パラダイムシフトを起こすようなイノベーション能力を持つAIの実現には至っておらず、人間の知能が依然として進歩のボトルネックになっています。

ARC-AGI-3とは？未知の「ミニゲーム」でエージェント知能を測る

ARC-AGI-1は推論モデルの登場によって、ARC-AGI-2は強化学習ループによる自己改善によって、それぞれ攻略されました。しかしいずれも、「正解が既知の環境での学習」に依存した突破でした。そこで真の自律的な汎用知能を測るべく開発されたのが、ARC-AGI-3です。

ARC-AGI-3は、AIの「エージェント的知能（Agentic Intelligence）」を測定するための全く新しいインタラクティブなベンチマークです。過去のバージョンが静的なデータからルールを推測するテストだったのに対し、ARC-AGI-3はAIが自律的に未知の環境に適応する能力を測ります。主な特徴や仕組みは以下の通りです。

テストの形式と環境：

AIエージェントは、初見の「ミニゲーム環境」に置かれます。この際、「何をすべきか（目標）」「どう操作するか」「環境のルール」といった指示は一切与えられません。環境は16色の64x64グリッドで構成され、AIは5つの移動キー、Undo（戻る）、クリックといったごく単純なアクションのみを使用します。プレイヤー（人間、AIエージェント）は、環境内での経験を通じて学習し、何が重要かを認識して行動を選択しなければなりません。自然言語の指示に頼らずに戦略を適応させ、なるべく少ないステップで効率的にゲームをクリアすることが求められます。

下記のリンクで実際のゲームの例をプレイすることができます：

https://arcprize.org/tasks/ls20

ARC-AGI-3の画面例

4つのエージェント的知能：

真のエージェント的知能を測るため、以下の4つの能力がテストされます。

探索（Exploration）: 未知の環境と相互作用し、能動的に情報を集める能力。
モデル化（Modeling）: 観察から環境のルールや物理法則を理解する能力。
目標設定（Goal-Setting）: 明示的な指示なしに、環境の手がかりから自律的に「勝利条件」を推論する能力。
計画と実行（Planning and Execution）: 目標に向けた手順を計画し、予期せぬ結果に対応しながら実行する能力。

新しいスコア指標「RHAE（行動効率）」：

ARC-AGI-3における知能とは、単にタスクをクリアできるかではなく、「どれだけ少ない行動（ターン数）で適応できたか」という『行動効率（Action Efficiency）』で評価されます。独自の評価指標である「RHAE（Relative Human Action Efficiency）」は、人間のテスト参加者のうち2番目に優秀だったスコアをベースラインとして比較します。そして、総当たり（ブルートフォース）による非効率な探索を厳しく減点するため、AIが人間より多くの行動をとった場合、その効率の比率を2乗してスコアを算出する仕組みになっています。例えば、人間の2倍のステップを要した場合、効率は半分ではなく、スコアは4分の1まで低下します。

人間と最先端AIの圧倒的なスコア差:

2026年3月のリリース時点でのテスト結果は、人間とAIの間にまだ巨大なギャップがあることを示しています。

人間は100％解決可能: 一般の参加者486人によるテストの結果、ベンチマークに含まれるすべてのテスト環境が、事前の訓練や知識を持たない一般の人間によって確実に解けることが実証されています。
AI: 一方で、世界の最先端モデルであるGoogle Gemini 3.1 Pro Preview (0.37%)、OpenAI GPT 5.4 (0.26%)、Anthropic Opus 4.6 (0.25%) などは、すべてRHAEスコアが1%未満にとどまっています。

ARC-AGI-3は、現在のAIがまだ獲得できていない「未知の環境で素早く学習し、適応する力」を正確に測るための、非常に難易度の高い画期的なベンチマークと言えるでしょう。

おわりに: ARC-AGIが描くAGIへのロードマップ

ARC-AGIの目的は、人間とAIの能力差を可視化し、AGIに向けた進歩を加速させることにあります。今回登場したARC-AGI-3も、次世代のブレイクスルーを捉えるための重要なマイルストーンとして位置づけられます。

開発者のフランソワ・ショレ氏は、現在のようなLLMの規模拡大だけでは、真のAGIには到達しないと指摘しています。彼が設立した研究所「NDIA」では、ディープラーニングに依存しない新たなアプローチとして、プログラム合成などの研究が進められています。

ショレ氏は、将来のAGIについて、膨大な知識を蓄えた基盤の上に、推論を担う中核が存在する構造になると考えています。そして、その中核となる「流動性知能エンジン」は、科学法則のように簡潔で、1万行未満の洗練されたコードで実現される可能性があるとしています。

こうした技術的転換を踏まえ、ショレ氏は「真のAGI」の到達時期を2030年代初頭と見込んでいます。そして私たちに対して、AIを脅威として捉えるのではなく、自らをエンパワーするツールとして活用すべきだと提言しています。

ARC-AGIは、今後も進化を続けていく計画です。例えば、長期的にスキルを再利用する能力を測る「ARC-AGI-4」や、人間と同レベルの発明能力に焦点を当てた「ARC-AGI-5」などの開発が構想されています。

真のAGI実現に向けた次なるブレイクスルーがいつ起こるのか、今後のARC-AGIの展開からますます目が離せません。

▼参考資料

馬場高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR（投資家向け広報）を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA（ファイナンス専攻）。