生成AIは「より大きなモデル、より多くのデータ」で進化してきました。しかし今、その限界が見え始めています。
OpenAIやTeslaでAI開発の最前線に立ってきたアンドレイ・カーパシー氏は、最近のポッドキャストで、現在のLLM(大規模言語モデル)には決定的な限界があり、真のAGI(※)実現には「まだ10年は必要」だと述べています。
本記事では、カーパシー氏が示したその限界を整理し、それを突破するための新たなアプローチがいま何を目指しているのかを解説します。次のブレークスルーは、スケールではなく設計思想の転換から生まれるのかもしれません。
※カーパシー氏はここでAGIを、OpenAIが設立当初に掲げていた「人間と同等か、それ以上の能力で、経済的に価値のあるあらゆるタスクを実行できるシステム」という意味で使っています。
LLMの「限界」
2025年は「AIエージェントの年」とも言われていますが、カーパシー氏はこの楽観論に釘を刺します。むしろ私たちは「エージェントの10年(Decade of Agents)」、つまり本当に自律的に行動できるAIへの長期的な進化プロセスの入口に立ったばかりだと述べています。
カーパシー氏が指摘する現行LLMの根本的な課題は三つに整理できます。
1.継続学習ができない――「健忘症」のAI
LLMは一度の対話の中では驚異的な能力を発揮しますが、そのセッションが終わると得られた知識をほぼ完全に忘却してしまいます。カーパシー氏は、LLMには、人間のように継続的に学習し、記憶を更新していく能力が決定的に欠けていると指摘します。
さらに問題なのは、LLMの「知識」が単なる丸暗記の集積である点です。人間のように抽象化された概念ではなく、訓練データの過剰な記憶に依存しているため、本当に新しい状況への柔軟な対応ができません。
カーパシー氏は、この過剰な記憶を取り除き、本質的な「認知的コア (cognitive core)」を抽出する必要があると指摘します。人間が細部をすべて覚えられないことは欠陥ではなく、パターン発見や汎化能力を促す知能の特性だというのです。
2.強化学習の非効率性――疎なフィードバックの限界
最近のLLMの高い推論能力の多くは、事後学習段階での強化学習 (Reinforcement Learning)によって獲得されたものです。しかし、カーパシー氏は、現在の強化学習のプロセスは極めて非効率だと指摘しています (強化学習の重要性や課題については、こちらの記事もご参照ください)
たとえばモデルが数学問題を解く場合、何百通りもの試行を繰り返し、その末に得られるのは正解か不正解かという非常に情報量の少ないシグナルにすぎません。不正解だったとしてもどの部分が誤りだったかは示されず、正解した場合でも思考過程に誤りが含まれていた可能性は排除されません。
つまり、強化学習はノイズの大きい学習プロセスであり、モデルの能力向上に対して本質的に非効率な手法だといえます。これは、人間が誤答を分析し、なぜ間違ったかを学ぶプロセスとはまったく異なるものです。
3.自己模倣の罠――モデル崩壊のリスク
LLMがさらに進化するためには、人間が生成したデータだけでなく、AI自身が生成したデータ(合成データ)で学習していく必要があります。しかし、ここにも大きな罠があります。
カーパシー氏が指摘するのは「モデル崩壊(Model Collapse)」の問題です。モデルは、自身が生成した「それらしい」が、実際には多様性に欠ける(統計的に偏った)データを学習し続けることで、徐々にその能力が劣化し、崩壊してしまう危険性があります。人間も年を取ると考え方が固執し、同じようなことしか言わなくなることがありますが、LLMのモデル崩壊はそれと似た現象です。
カーパシー氏は、こうした課題は解決不可能ではなく、対処可能だと述べています。ただし現在のLLMの延長線上だけでは突破できず、新たなアプローチが必要だと強調しています。
では、そのブレークスルーはどこから来るのでしょうか? 最近の研究動向を見ると、カーパシー氏が示した限界を正面から攻略しようとする真正面から取り組む興味深い研究がいくつか発表されています。
LLMの限界を超える3つの新アプローチ
現在主流の「とにかく巨大なモデルを、膨大なデータで訓練する」というスケール依存のアプローチとは一線を画す、3つの注目すべき技術を紹介します。
1.On-Policy Distillation(オンポリシー蒸留): 賢く教える
カーパシー氏が指摘した強化学習の非効率性という課題に、対処するアプローチが「オンポリシー蒸留」です。
これは、OpenAIの元CTOであるミラ・ムラティ氏が率いるThinking Machines Labなどが推進する技術です。
仕組み: このアプローチでは、小規模な「学生モデル」と、高性能な「教師モデル」を使います。小さな学生モデルがまず回答を生成し、その全思考過程の各ステップについて、高性能な教師モデルが密なフィードバックを与えるという手法です。
これは、強化学習がエピソードの最後に一度だけ「0点」か「100点」かしか伝えないのに対し、教師が学生の回答プロセスに逐一寄り添い、「この言い回しは良い」「この計算は間違い」と、すべてのステップで指導するようなものです。
利点: この手法により、学習はエピソード全体を一括評価する従来の強化学習よりもはるかに効率的になります。わずか80億パラメータの学生モデルが、この手法(150ステップ)で訓練された結果、強化学習で1万8千GPU時間近くかけて訓練されたモデルの性能を上回ったと報告されています。
また、新しい知識を学習する際に古い知識が上書きされてしまう「破滅的忘却 (Catastrophic Forgetting)」の問題を軽減する効果も示されています。
2.Prompt Baking(プロンプト・ベーキング): 忘れないAIへ
カーパシー氏が指摘した「認知的欠陥」、特に「継続的学習の欠如」という課題に取り組むのが「プロンプト・ベーキング」です。これは、LLMを「静的な成果物」から「動的に進化する存在」へと変える可能性を秘めた技術です。
仕組み: プロンプト・ベーキングは、私たちが一時的に入力する「プロンプト(指示)」を、LLMの「重み(パラメータ)」に文字通り「焼き付ける (Bake)」技術です。
技術的には、プロンプトを与えられた標準モデルの出力(確率分布)と、プロンプトなしで重みを変更した新モデルの出力が、可能な限り一致するように学習させます。これにより、プロンプトに込められた指示や知識が、モデルの恒久的な能力として組み込まれるのです。
利点: このアプローチが注目されるのは、その圧倒的な「サンプル効率」にあります。強化学習や教師ありファインチューニング (SFT)といった従来の事後学習手法が数千、数万のサンプルを必要とするのに対し、プロンプト・ベーキングは、人間が一度のフィードバックで学習するように、たった一つの指示や修正(プロンプト)からモデルを恒久的にアップデートできる可能性があります。さらに、異なる知識を小刻みにベーキングしていくことで、モデルを継続的にアップデートし続ける枠組みにもなり得ます。
これは、現行LLMが会話が終わると学習内容を忘れてしまうという「健忘症」を克服し、真の意味でのオンザジョブ学習 (実地学習)へと近づく試みです。
3.Tiny Recursive Models (TRM) :小さくても深く考える
最後に紹介するのは、「スケール(規模)」こそが鍵とされてきたLLM業界の常識を覆すかもしれない「Tiny Recursive Models(TRM)」です。これはサムスンの研究チームが発表したもので、カーパシー氏が指摘したLLMの推論能力の限界に対し、アーキテクチャの革新で挑むアプローチです。
仕組み: TRMの驚くべき点は、そのサイズにあります。わずか700万(7M)パラメータという、現代のLLMとは比較にならないほど「Tiny (極小)」なモデルです。
TRMは「再帰 (Recursive)」という特殊な思考プロセスを用います。まず問題に対して即座に「ドラフト(下書き)」を作成します。次に「スクラッチパッド」と呼ばれる内部メモリで、このドラフトを何度も(例えば6回)自己批判し、論理を洗練させます。そして改訂された回答を生成——この「ドラフト→批判→改訂」のサイクルを繰り返すのです。
利点: この「深く考える」アーキテクチャにより、TRMは、従来のLLMが苦手としてきた厳密な論理パズル(数独やARC-AGIなど)において、DeepSeek-R1やGemini 2.5 Proといった、数千倍から数万倍も巨大な最先端LLMを凌駕するスコアを叩き出しました。
TRMは、AIの「知能」が、パラメータの数やデータの量といった「規模」だけで決まるのではなく、むしろ「いかに推論するか」という「アーキテクチャ」にこそ依存する可能性を強く示唆しています。これは、カーパシー氏が指摘した「過剰な記憶」に頼るのではなく、真の「認知的コア」を構築しようとする試みとも言えるでしょう。
おわりに
アンドレイ・カーパシー氏が指摘するように、現在のLLMは革命的であると同時に、真のAGIと呼ぶには多くの根本的な課題—非効率な学習、継続性の欠如、モデル崩壊の危険性—を抱えています。
しかし、今回ご紹介した3つのアプローチ(On-Policy Distillation、Prompt Baking、TRM)は、カーパシー氏の示したLLMの限界―すなわち学習効率の低さ、継続性の欠如、推論能力の限界―を別々の角度から乗り越えようとするものです。これらのアプローチは、従来の「とにかく巨大にすれば賢くなる」というスケール偏重の発想とは一線を画し、認知メカニズムの洗練という、より人間的な知能の獲得に向かう方向性を示しています。
AGI実現への道はまだ長いでしょう。しかし、AIが効率的に学習し、経験を蓄積し、深く推論する能力を獲得していくプロセスはすでに始まっています。次のブレークスルーは、巨大モデルのさらなる拡張ではなく、知能の構造そのものを再設計する研究から生まれるのかもしれません。
▼参考資料
- 「Andrej Karpathy — AGI is still a decade away」 ドワーケシュ・パテル ポッドキャスト
- 「On-Policy Distillation」 Thinking Machines Lab社ブログ
- 「Why Prompt Baking is the Only Known Method for Sample Efficient On-the-Job Learning」 Bread社ブログ
- 「Less is More」 論文