はじめに
推論能力を持つ大規模言語モデル (LLM)の発展は目覚ましく、イノーバウィークリーAIインサイトでもその進展をたびたび取り上げてきました。
- 深く考えるAI – OpenAI o1の衝撃|イノーバウィークリーAIインサイト -21
- LLMは壁に突き当たっているのか?~スケーリング神話の崩壊~|イノーバウィークリーAIインサイト -29
- OpenAI o3:驚くべき性能と残された課題|イノーバウィークリーAIインサイト -34
- DeepSeekショック - 中国発のオープンソースAIはゲームチェンジャーか?|イノーバウィークリーAIインサイト -36
- DeepSeek推論モデルの「アハ・モーメント」- 試行錯誤で賢くなるAI|イノーバウィークリーAIインサイト -39
昨年、一時期、各社からの新モデル発表のペースが鈍くなり、LLMの進歩を支えてきたスケーリング則は終焉したのではないかと言われました。しかし、昨年末からはOpenAI o3、DeepSeek R1、AnthropicのClaude 3.7、Google Gemini 2.0 Flash Thinking、Gemini 2.5 Proといった推論性能に優れたモデルが短期間に各社から続々と発表され、進化のペースが再び加速しているように見えます。
こうした最近の「推論モデル」の急速な進化は、従来から知られていた事前学習 (Pre-training)におけるスケーリング則に加えて、新たに事後学習 (Post-training)とテスト時 (Test-time)のスケーリング則が見出されたことが背景にあると言われています。
今回は、AIの進化を読み解く鍵となるこの3つのスケーリング則について、特に最近注目されている事後学習のスケーリングに焦点を当て、NVIDIAの説明や関連する技術ブログなどを参考に解説します。
3つのスケーリング則:NVIDIA ジェンスン・フアンCEOのプレゼンテーション
今年3月に開催されたNVIDIA GTC 2025の基調講演でジェンスン・フアンCEOは「昨年、ほぼ全世界がこの点(スケーリング則の停滞)を間違えていました」「スケーリング則は強靭であり、実際には超加速しています」と述べ、「1つから3つのスケーリング則へ」と題した下記のスライドを示しました。
この、3つのスケーリング則とは何でしょうか?
- 事前学習 (Pre-training) スケーリング
「Google DeepMindが2022年3月に公開した論文(Chinchilla論文として知られる)で定量的に示された、LLM開発における最も基本的な法則です。
大量のテキストや画像データを使って、LLMに世界の基本的な知識や言語能力、パターン認識能力などを教え込む事前学習のプロセスにおいて、「モデルのサイズ(パラメータ数)」、「学習データの量」、「学習に投入する計算資源(コンピューティングパワー)」という3つの要素を大きくすればするほど、LLMの性能が予測可能に向上するという法則です。この法則に基づいて、大量のデータで事前学習され、多様なタスクに適応できる汎用的なAIモデルは、「基盤モデル(Foundation Model)」または「ベースモデル」と呼ばれ、今日の推論モデルの土台となっています。
- 事後学習 (Post-training) スケーリング
事前学習で広範な基礎知識を身につけたAIに、特定のタスクや専門分野への適応能力を教え込むのが事後学習です。これは、いわば基礎教育は終了している基盤モデルに対する「専門教育」や「実地訓練」にあたります。
事後学習では、基盤モデルをベースに、より小規模なデータセットや計算資源を使って、特定の目的に合わせて性能を洗練させます。具体的な手法としては、特定のタスクデータや応答スタイルを追加学習させる「ファインチューニング」、人間のフィードバックに基づいてモデルの振る舞いを望ましい方向に導くRLHF (Reinforcement Learning from Human Feedback)、大規模モデルの知識をより軽量なモデルに継承させる「蒸留(Distillation)」などが挙げられます。事後学習は、比較的少ないコストで、モデルを特定の用途に最適化したり、モデルの弱点(有害な出力、不適切な表現、事実誤認など)を修正したりする方法として実践されてきました。
これに加えて、最近、注目されているのは、事後学習にもスケーリング則が存在するという発見です。人間によるフィードバックだけでなく、AIによるフィードバックを用いた強化学習にも計算資源を投入することで、モデルの性能を効率的に向上させられることが明らかになってきたのです。これについては、後で詳しく説明します。
- テスト時 (Test-time) スケーリング
テスト時 (Test-time) スケーリングも、比較的新しい概念であり、特に推論性能に優れた「推論モデル」の登場と密接に関連しています。テスト時スケーリングは、AIが回答を生成する「推論時」に、より多くの計算資源(時間)を投入することで、回答の質や精度を高めるというアプローチで、以下のような手法があります:
思考の連鎖プロンプティング (Chain-of-Thought Prompting):
モデルに段階的な思考プロセス(いわゆる思考の連鎖)を生成するように促すプロンプトを用いることで、複雑な問題を一連の単純なステップに分解し、最終的により精度の高い回答を得る手法です。
多数決サンプリング (Sampling with majority voting):
同じプロンプトに対して複数回応答を生成し、それらの中から最も適切なものを選択する方法です。これにより、より多様な視点からの回答が得られ、精度向上が期待できます。
検索 (Search):
解答に至る複数の思考経路をツリー状に探索し、それぞれの経路を評価して最適な解を選択する手法です。
なぜ「事後学習」がブレイクスルーを生むのか? - 潜在能力を引き出す
事後学習に詳しいAI研究者のネイサン・ランバートは、最近のブログ記事で「最近のAIモデルの性能向上のほとんどは事後学習フェーズで得られている」というAnthropicのダリオ・アモデイCEOの発言を引用し、それが業界の共通認識となりつつあることを指摘しています。
これは、事後学習が単なるモデルの「ファインチューニング (微調整)」にとどまらず、より本質的な役割を担っていることを示唆しています。ランバートは、事後学習の潜在力を理解する上で、「引き出し (elicitation)」という概念を提唱しています。
ベースモデルは、事前学習の過程で、膨大なデータから多様な知識や能力、推論能力の断片などを潜在的に獲得しています。事後学習の役割は、ベースモデル内部に眠っている価値ある能力や振る舞いを、効果的に「引き出し(Elicit)」、そして「増幅(Amplify)」することにある、というのです。
ランバートは、F1レースに例えると分かりやすいと言います。F1チームは、毎年、シーズンの初めに新しいシャシーとエンジン(=事前学習済みベースモデル)を用意します。そして、シーズンを通してエアロダイナミクスや各種システムに改良(=事後学習)を加え続けることで、マシンのパフォーマンスは劇的に向上します。最高のチームは、ベースとなるマシン設計の変更以上に、シーズン中の改善によって大きな差をつけるのです。LLMの事後学習もこれと同様で、優れた事後学習技術を持つチームは、既存のベースモデルから短期間で驚くほどの性能向上を引き出すことができます。
この「引き出し」において、特に重要な役割を果たしているのが、上記のNVIDIAのGTCスライドで示されていた「検証可能な報酬による強化学習(RLVR: Reinforcement Learning from Verifiable Rewards)」です。これは、AIモデルが「正解が明確な課題」で効率的に学習する手法です。数式の答え合わせやコードの動作検証のように、結果を客観的にチェックできるタスクに最適です。
RLHFが人間の主観的な評価を報酬として利用する強化学習であるのに対し、RLVRは客観的に検証可能な報酬シグナルに基づいて強化学習を行う手法です。
RLVRにより、人間が介在して大量の教師データを用意しなくても、モデルに内在する潜在能力を効率的に引き出し、強化することが可能になります。DeepSeekがRLVRを中心的な手法として用いて高性能な推論モデルR1を開発したことは、その有効性を示す好例と言えます。
もちろん、事後学習の効果は、ベースとなる事前学習済みモデルの質に大きく依存します。より大規模で高性能なベースモデルほど、「引き出す」ことのできる潜在的な能力の幅も深さも大きくなります。事前学習は、事後学習という名の「才能開花」を可能にする土壌であり、依然としてAI開発の根幹をなすプロスとして重要なことに変わりありません。
OpenAIは2月27日に新世代のGPT-4.5を発表しました。OpenAIがデータを公開していないため詳細は不明ですが、GPT-4から大幅にスケールアップしたモデルと考えられています。しかし、公開当初の研究者や一般ユーザーによる評価では、競合の最先端モデルやOpenAI自身の推論モデルと比較して、ベンチマークテスト上でGPT-4.5の明確な優位性は見られない、という声が多く聞かれました。しかし、ランバートは、GPT-4.5はそれ自体が完成形というより、OpenAIが今後さらに優れた推論モデルを開発するための、より強力で柔軟な基盤(ベース)となる可能性を秘めている、と見ています。
このように、従来は主にモデルの応答スタイルや安全性の調整と見なされがちだった事後学習が、今やモデルの能力改善、特に推論能力を引き出す上で鍵を握るプロセスとして認識されるようになっているのです。
おわりに
本記事では、AIの「推論」能力をめぐる最新動向として、「推論モデル」の登場、AIの進化を加速させる「3つのスケーリング則」、そして特に基盤モデルの潜在能力を「引き出す」上で重要な「事後学習」の役割について解説しました。
3つのスケーリング則、とりわけ事後学習による潜在能力の「引き出し」とテスト時スケーリングが相乗効果を生むことで、AIの進化は今後も加速していくと考えられます。
AIの推論能力の強化は、自律的に目標を設定し、計画を立て、タスクを実行する「AIエージェント」の実現に向けた重要な技術基盤となります。AIエージェントが、単なる応答生成を超えて現実世界の複雑な問題に対処したり、ユーザーの意図を汲んで主体的にアシストしたりするためには、状況を理解し、先の展開を予測し、最適な行動を選択するための高度な推論能力が不可欠だからです。事後学習によるベースモデルの潜在能力の「引き出し」と、テスト時スケーリングによる「熟考」が組み合わさることで、より高性能で汎用的なAIエージェントの登場が期待されます。
もちろん、現状のAIモデルには、ハルシネーション(もっともらしい嘘をつく)のリスクや、推論プロセスの不透明性、安全性といった課題も依然として残りますが、AI技術、特にその推論能力の進化は、今後も凄まじいペースで続くことが予想されます。AIがより有能な「思考パートナー」や「エージェント」として社会の様々な場面で活躍する未来に向けて、その動向からますます目が離せません。
参考動画・記事
- NVIDIA GTC 2025 ジェンスン・フアンCEO基調講演
- 「スケーリング法則が、よりスマートでパワフルなAIを生み出す」 NVIDIAブログ
- 「事後学習を理解する最もシンプルな方法 『引き出し』」
