Skip to content
馬場 高志2025/03/21 10:00:021 min read

AI競争の変化:モデル性能からビジネス価値へ|イノーバウィークリーAIインサイト -43

2025年に入り、毎週のようにAI各社から新たなAIモデルが発表され、他社のモデルを凌駕する性能をベンチマークテストで記録したことがニュースになっています。こうした最先端LLM (大規模言語モデル)の動向を私たちどう考えれば良いのでしょうか? 本稿では、AI企業間の競争の変化とLLMのビジネス活用の方向性について考察していきます。

 

 LLM性能レベルの収束傾向

AI開発競争が激化する中、OpenAI、Google、Anthropicといった既存のリーダーに加えて、中国の新興企業Deep Seekやイーロン・マスクが2年前に設立したxAIが推論能力に優れたLLM (大規模言語モデル)を次々と発表しています。

 

AI各社の推論モデル公開日

会社名

モデル名

公開日 (米国時間)

OpenAI

o1 preview

2024年9月12日

Google

Gemini 2.0 Flash Thinking

2024年12月19日

Deep Seek

R1

2025年1月20日

OpenAI

o3-mini

2025年1月31日

xAI

Grok 3 Extended Thinking

2025年2月17日

Anthropic

Claude 3.7 Extended Thinking

2025年2月25日

 

AI開発者のチャーリー・グオは最近のブログ記事で、この状況について次のように述べています:

 

「o1に関して、こんなに早くパフォーマンス差を縮められるとは、ちょっと唖然としている。 GPT-4が発売されてから、どのモデルもGPT-4の実力に迫るまでに1年以上かかったが、o1(昨年9月発売)とライバルとの差は数カ月で縮まった」

 

「今後、モデルの優位性を半年以上も維持し続けるのは不可能に近く、 最先端モデルの能力は同レベルに収束しつつある

 

各社推論モデルのベンチマーク性能比較 (Anthropic Claude 3.7 Sonnet発表資料より)

ベンチマークテストで高得点は、実際の業務における有用性とは必ずしも一致しません。 Claude 3.7 Sonnetの発表リリースでAnthropic自身も、ベンチマークテストの結果のみにとらわれるべきではないと主張しており、「私たちは、数学やコンピュータサイエンスの競技問題への最適化をやや減らし、その代わりに、企業がLLMを実際にどのように使うかをよりよく反映した実世界のタスクに重点を移しました」と述べています。

 

これは、もはやモデル性能だけで競争優位を保つことが困難になったことを示しています。この認識は今に始まったことではありません。約2年前にMetaのオープンソースLLMのLlamaの性能を見たGoogleのエンジニアによる「我々には『Moat (モート:城を守る堀の意味)』がない、そしてOpenAIにもない」と書かれた内部メモがメディアにリークして話題を呼びました。

 

競争はモデル性能から現実世界での問題解決能力にシフトしています。そして、各社はLLMの周りの機能拡張に注力しています。しかし、ここでも各社の機能はすでに重複しているとグオ氏は言います。

 

具体的には、各社のLLMは以下の3つの分野で同様の機能を提供するようになっています。

 

Web検索:インターネット上の情報にアクセスし、ユーザーの質問に関連する情報を検索する機能

ブラウザ操作: Webブラウザを自動的に操作し、情報収集やタスク処理を行う機能

ソフトウェア開発:プログラミングコードを自動的に生成する機能

 

各社が同様のコア機能を持つことは、ユーザーにとっては朗報といえます。ユーザーにとって特定のベンダーのAIエコシステムへのロックインされるリスクが軽減されることを意味するからです。しかし、AI企業にとっては、別のレベルでの競争しなければならないプレッシャーが高まっていることを意味してます。

 

製品レベルでの実用性の競争

LLMのコモディティ化によって、AI企業間の競争は製品レベルでの競争にシフトしています。LLMの機能を組み込んだ製品で、いかに現実の問題を解決できるかがが問われているのです

 

Googleが昨年12月に発表した「Deep Search」は、LLMとWeb検索を統合したAIツールであり、この方向に沿った製品といえます。Googleに続いて、OpenAIとPerplexityも「Deep Search」、そしてGrokの「Deep Search」など、同様の機能を持つ製品が次々と登場しており、激しい競争が既に展開されています (イノーバウィークリーAIインサイト No.41 をご参照ください)。

 

LLMによるブラウザ操作機能についてはAnthropicが2024年10月に「Computer Use」という機能をAPI提供しましたが、OpenAIも「Operator」というAIエージェントをリリースしています。

 

また、LLMによるソフトウェア開発も注目を集めています。 AnthropicがClaude 3.7 Sonnetと共に発表した「Claude Code」はエージェント型コーディングツールで、自然言語で指示することで、コードの作成や修正、実行が可能です。 OpenAIも同様の製品を開発中と言われています。 

 

このように、生成AIの分野では、単なるモデルの性能競争から、製品としての有用性、ユーザーエクスペリエンス、そして革新的な機能の提供へと競争軸がシフトしています。 AI技術が急速に進化しコモディティ化する中で、いかにユーザーのニーズを捉え、差別化を図るかが、今後のAIビジネスにおける成功の鍵を握ると言えるでしょう。 

 

LLMビジネス活用の2つのアプローチ

現実の問題の解決能力という観点で現在のLLMベース製品はどこまで来ているのでしょうか?

 

OpenAI Deep Researchは、高度な推論とWeb検索機能を組み合わせたリサーチツールとして、既に専門家レベルのレポートを作成できると高い評判を得ています

 

しかし、問題がないわけではありません。テクノロジーアナリストとして知られるベネディクト・エバンスは「ディープリサーチプロブレム」と題されたブログ記事でOpenAIの製品発表ページで事例として紹介されていた世界のスマートフォンシェアに関するレポート検証し、信頼できない情報ソースを使用したり、参照した情報ソースの数値とレポートの数字が一致していないなどの問題があったことを報告しています(エバンスはスマートフォン市場に精通したアナリストです)。

 

エバンスは、この問題はLLMが抱える根本的な課題を浮き彫りにしていると考えています。LLMは、ユーザーの意図を理解し、それに基づいた応答を生成することは得意ですが(従来のコンピュータはこれを苦手としていました)、データベースから確実に正しい情報を検索することは苦手だということです(コンピュータはこれが得意です)。LLMは確率的なシステムであり、データベースシステムのような同じインプットに対しては必ず同じ答えを返す決定論的システムではないということです。従って、情報源の選択やデータの正確性の検証には人間の専門知識が必要だというのです。

 

エバンスは別のブログ記事でLLMのこうした特質を踏まえて、企業のビジネスプロセスにLLMを統合する2つの異なるアプローチについて議論しています。

 

第一のアプローチは、既存アプリケーションからLLMのAPIを呼び出す「GPTラッパー」という手法です。現在、従来のビジネスプロセスの効率化を進める多くの人たちはこのアプローチをとっています。LLMの不確実な面を、既存アプリケーションによる前処理と後処理によってコントロールしようとしているのです。

 

しかし、モデルの推論能力と信頼性がさらに向上すれば、LLMは逆に他のアプリケーションを呼び出す上のレイヤーに行くことができるようになるかも知れません。第二のアプローチは LLMが、既存アプリケーションに実行すべきクエリを指示し、全体を指揮する「AIエージェント」的な方法です。 

 

どちらが良いでしょうか? 予測可能なものの中でLLMをコントロールするべきでしょうか、それともLLMに予測可能なツールを与えるべきでしょうか? 

 

「GPTラッパー」はLLMの汎用的な機能を特定のタスク(文章生成、要約、翻訳、校正など)に特化させて使う、低リスクな方法であり、短期的に普及していくと予想されます。「AIエージェント」は、LLMを「頭脳」として、与えられた目標を達成するために自律的に行動するアプローチであり、誤った情報に基づく行動や、意図しない結果のリスクがありますが、より幅広く複雑なタスクに応用できる可能性があります。

 

おわりに

各社LLMの性能は収束しつつあります。OpenAI、Google、Anthropic、xAI、Deep Seekなど各社の先端モデルのベンチマーク性能差は縮まっており、Web検索、ブラウザ操作、ソフトウェア開発といったコア機能も同質化しています。AI開発者のチャーリー・グオ氏は、単一企業がモデル性能での優位性を半年以上維持することは、もはや困難になっていると指摘しています。

 

この状況下で競争の軸は製品レベルへとシフトしています。Deep ResearchやClaude Codeなどの製品は、LLMの基本性能を超えた実用的な問題解決能力を競う新たな舞台となっています。ユーザーにとっては選択肢の増加とベンダーロックインリスクの軽減という恩恵がある一方、AI企業には製品差別化という新たな課題を突きつけています。

 

しかし、ベネディクト・エバンスが指摘するように、LLMには依然として情報の正確性や信頼性に関する課題があります。LLMは意図理解と創造的応答に優れる一方、データベースのような決定論的な正確さには限界があります。

 

このLLMの特性を踏まえると、ビジネス活用には「GPTラッパー」と「AIエージェント」という2つの方向性があります。前者は既存アプリケーションからLLMを制御して特定タスクに活用する方法で、後者はLLMを「頭脳」として他のアプリケーションを指揮させる方法です。短期的には低リスクな「GPTラッパー」が普及し、LLMの信頼性向上とともに中長期的には「AIエージェント」アプローチが発展していくでしょう。

 

LLM活用の成功の鍵は、これら2つのアプローチをビジネスニーズに応じて適切に組み合わせることにありますLLMの創造性と推論能力を活かしつつ、情報の正確性を確保する設計が求められます。企業はモデルの性能だけでなく、実際のビジネス課題解決という観点から、LLM技術の導入と活用戦略を考えるべきです。

 

生成AI技術は今後も急速に進化し続けますが、その本質的な価値は技術そのものではなく、ビジネスや社会の具体的な問題解決への貢献にあります。技術の進化に目を奪われるのではなく、常に「何のために」という目的意識を持ち、人間とAIの最適な協働のあり方を模索していくことが重要です。

avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。