Skip to content
Close
馬場 高志2025/12/05 10:00:011 min read

AIの本当の実力はどう測る? ベンチマークと実務の深い断絶|イノーバウィークリーAIインサイト -79

「フロンティアモデル」と呼ばれる最先端のAIシステムは、司法試験や高度な数学テストといった知識ベースの評価で、すでに人間のエキスパートを大きく上回るスコアを記録しています。ベンチマークの数字だけを見れば、AIはすでにあらゆる知的労働を代替できる段階に達しているようにも見えます。

 

しかし、実務の現場では、こうした評価結果がそのまま当てはまるわけではありません。最新のAIエージェントであっても、複雑なプロジェクトを自律的に進めたり、人間が期待する水準で業務を安定して遂行したりすることは難しく、比較的単純なデジタル作業でさえ「丸投げ」すれば思わぬエラーや品質のばらつきに直面します。

 

なぜAIは「テストでは天才」なのに「仕事では頼りない」のか。本稿では、このギャップが生まれる理由を、従来のベンチマークが抱える構造的な限界から解き明かし、実社会に近い新しい評価指標――METRの「時間ホライゾン」とOpenAIの「GDPval」――が示す現実を整理します。

 

なぜベンチマークはAIの実力を測れないのか?

従来のベンチマークが実務適性を正確に捉えられない理由は、大きく3つあります。

 

1. データ「漏洩」による過大評価

多くのベンチマーク問題はWeb上に公開されており、学習データに含まれている可能性があります。その場合、AIは「問題を理解して解いている」わけではなく、学習時に見た回答を再現しているだけかもしれません。

 

2. 評価対象の偏り

MMLU-Proのような大規模テストには、「ホモ・エレクトスの脳容量は?」といったクイズ型の知識問題が多く含まれます。しかし、こうした知識は実務の判断や意思決定には直結しません。測定しやすい「知識問題」に偏ることで、より重要な文脈理解や判断力が十分に評価されないのです。

 

3. 構成概念妥当性(Construct Validity)の欠如

構成概念妥当性とは、もともと心理学の分野で生まれた用語で、「テストが本来測定すべきものを本当に測定できているか」を意味します。AIが司法試験で高得点を取れるからといって、戦略的な準備書面を作成できるわけではありません。自動採点しやすいタスクを中心に作られたベンチマークは、実務の複雑さや創造性を評価するには不十分です。

 

こうした限界を踏まえ、AIの「実社会における有用性」をより直接的に測ろうとする新しい動きが登場しています。その代表例が、METRとOpenAIのアプローチです。

 

METR「時間ホライゾン指標」:AIはどこまで長い仕事をこなせるか?

 

指標の概要

非営利研究機関METR(Model Evaluation & Threat Research)が提唱する「50%タスク完了時間ホライゾン」は、AIエージェントが自律的に完了できるタスクの「長さ」を測る指標です。

 

ここでいう「長さ」とは、人間の専門家がタスクを完了する標準的な所要時間のこと。10分・1時間・1日といったタスクを分類し、AIがどの時間帯まで50%の確率で成功できるかを評価します。

 

この測定には、ソフトウェア開発、サイバーセキュリティ、機械学習研究など、専門家が実際に行う実務プロセスを模倣した多様なタスクセット(METR-HRS)が用いられます。

 

現状と成長トレンド

METRの調査によると、AIのこの能力は指数関数的に成長しています。AIが処理できるタスクの長さ(時間ホライゾン)は、過去6年間で平均して約7ヶ月ごとに倍増しています。直近のデータではそのペースがさらに加速し、約4ヶ月で倍増している可能性も示唆されています。

 

現在の最先端モデルであるOpenAIのGPT-5は、人間なら約2時間15分かかるソフトウエアエンジニアリングタスクを50%の確率で自律的に達成できるとされています。この伸びが続けば、数年以内には「1ヶ月規模のプロジェクト」をこなせるようになるとの見方もあります。

AIが自律的に完了できるタスクの伸び(出典:METR)

 

課題:タスクとプロジェクトは別物

しかし、この指標には重要な落とし穴があります。「ベンチマーク上での成功」と「現場での生産性」の間にパラドックスが生じているのです。

 

METR自身が行ったランダム化比較試験では、驚くべき結果が出ています。経験豊富な開発者がAIツールを使った場合、使わなかった場合と比べて、タスク完了に19%も長い時間がかかったのです。ベンチマークでは1〜2時間のタスクを自律的にこなせるはずのAIが、現実の生産性を逆に下げているのです。

 

この矛盾を解く鍵は、「プロジェクトは単なるタスクの束ではない」という視点にあります。元Googleのエンジニアであるスティーブ・ニューマン氏は、この点について疑問を呈しています。1時間のタスクを100回繰り返しても、100時間のプロジェクトを完遂したことにはならないのです。

 

長期のプロジェクトには、

  • 膨大な情報を整理し続けるコンテキスト管理
  • プロジェクト固有のルールを学ぶ継続的学習
  • 行き詰まったときにアプローチを転換するメタ認知

が求められます。

 

現在のAIは、切り出された短いタスクはこなせても、「長期的な文脈を維持しながら目的に向けて進む」というプロジェクト特有の能力には依然として大きなギャップがあります。

 

OpenAI「GDPval」:経済的価値のある成果物を作れるか?

 

指標の概要

OpenAIが開発した「GDPval」は、AIの能力を従来の学術的な指標ではなく、実際の経済活動に直結する実務の成果物の品質で評価しようとする指標です。 

 

具体的には、米国GDPに大きく貢献する9つの主要産業から44の職種 (弁護士、ソフトウェア開発者、看護師など)を選び、専門家が作成・検証した1,320件の実務タスクをAIに実行させます。評価のポイントは、AIの推論プロセスではなく、最終的に出力される成果物がプロフェッショナルの水準に達しているか、そして人間と比較してどれだけの速度・コストで実行できるかを測定することにあります。

 

「100倍」の衝撃

OpenAIは、最先端のフロンティアモデルは、特定の実務タスクにおいて人間の専門家と比較して「100倍速く、100倍低コスト」で成果物を生成できる潜在能力を持っているというインパクトのある数字を提示しています。GPT-5やClaude Opusといったモデルは、知識労働の多くの領域で人間と同等以上の品質スコアを記録しており、単純な数値上ではAIによる労働代替が劇的な経済効果をもたらす可能性を示唆しています。

 

GDPvalが抱える3つの構造的課題

しかし、この「100倍」という数字の裏には、実世界での運用を阻むいくつもの構造的な課題が隠されています。GDPvalには以下の3つの課題が指摘されています。

 

1. タスク選定のバイアス

GDPvalは「デジタル上で行われる知識労働」に焦点を当てており、現場での物理作業や、言語化しにくい「暗黙知」を要する業務は評価の対象外となっています。

 

2. ワンショット評価の限界

GDPvalの多くのタスクは一回きりの生成で評価されますが、実際の実務は、ドラフト作成後に上司やクライアントからのフィードバックを受け、修正と改善を繰り返す「反復プロセス」が不可欠です。

 

3. 人間の監視コストの看過

AIが出力する成果物は、一見高品質でも指示に従わないケースや微細な誤りを含むことがあり、人間による厳格なレビューと修正が欠かせません。この「人間の関与コスト」を含めると、実際の効率化効果は劇的に縮小します。さらに、企業がAIを導入する際に直面する法的リスクや品質保証の壁といった「組織的な抵抗」も、この指標では考慮されていません 。

 

つまりGDPvalは、従来ベンチマークより現実に近いとはいえ、実務の全体像をそのまま測れるわけではありません。

 

おわりに:AIの実力を見極める実践的アプローチ

METRの時間ホライゾンやOpenAIのGDPvalは、従来のテストスコアよりもはるかに「実社会」に近い評価軸を提供してくれました。しかし同時に明らかになったのは、ベンチマークでの優秀さと現場での「使える/使えない」の間には、依然として大きな溝があるという事実です。

 

では、私たちはAIの実力をどう判断すべきなのでしょうか。ウォートン・スクールのイーサン・モリック教授は、「AIに採用面接(Job Interview)を行う」という非常に実践的なアプローチを提案しています。

 

企業が重要なポジションに人を採用する際、その人のテストの点数(ベンチマーク)だけで合否を決めることはありません。実際の業務に近い課題を与え、その判断力や対応力、自社のカルチャーとの適合性を多角的に審査するはずです。AIに対しても、これと同じ態度が必要です。

 

「MMLUのスコアが高いから」という理由だけでAIを選ぶのは危険です。AIモデルにはそれぞれ「性格」があり、あるモデルはリスクを取る提案が得意な一方、別のモデルは保守的で正確かもしれません。重要なのは、公開されたベンチマークスコアを鵜呑みにすることではなく、「自社の実際の業務タスク」を使って、自分たちの手でテストすることです。

 

自社特有の曖昧な指示をどう解釈するか、自社のデータをどう扱うか——実際に「面接」をし、試用期間を経て、そのAIがチームの一員として機能するかを見極める。「AIの本当の実力」を測る万能な物差しは存在しません。結局のところ、自社の現場で実際に検証し、人間の目で見極めることこそが、AI活用の成否を分ける鍵なのです。

 

▼参考記事

 

 

avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。