Skip to content
Close
馬場 高志2025/06/27 10:00:001 min read

「AIに仕事を奪われる」は本当か? LLMの限界と「経験から学ぶAI」の未来|イノーバウィークリーAIインサイト -56

AIの研究・開発で業界をリードする米企業 Anthropic社のダリオ・アモデイCEOは、最近のインタビューで「AIは今後1~5年で、エントリーレベルのホワイトカラーの仕事の半数を消滅させ、失業率を10~20%に跳ね上げる可能性がある」と発言し物議を醸しました。

 

現在のAIは主に決まり切った作業をこなし、人間をより高度な仕事に専念できるようにする「補強 (augmentation)」な役割を担っていますが、アモデイ氏は、数年、あるいはそれよりも早く、AIが実際に仕事を代行する、「自動化 (automation)」に移り変わるだろうと述べています。

 

第54回のコラムでも取り上げた通り、最近のマイクロソフトやIBMの例のように、AIの影響とみられるレイオフの事例も顕在化しつつあります。

 

今回は、AIによる仕事の自動化実現のタイミングや、ボトルネックになるLLM(大規模言語モデル)の問題点について、米国の識者の意見をベースに掘り下げていきます。

まずは、一部の専門家が予測する、驚くほど早い自動化の未来像から見ていきましょう。

 

ホワイトカラー自動化のアグレッシブなタイムライン

AnthropicのAI研究者であるショルト・ダグラスとトレントン・ブリッケンは、AIや先端技術分野の第一線で活躍するポッドキャスターのドワルケシュ・パテルとのインタビュー で、2025年の年末までに、ジュニアレベルのエンジニアの1日分の仕事、あるいはかなり有能なエンジニアの数時間の仕事ができるソフトウェアエンジニアリングエージェントが登場すると予測しています。

 

さらに、彼らは、より広範なホワイトカラーの仕事をこなせるAIエージェントも、今後数年以内に確実に出てくるだろうと予測しています。インタビューでは、「税務処理をしてくれ」と指示すれば、メールや注文履歴から必要な情報を収集し、請求書をメールでやり取りし、領収書をまとめ、税務フォームを提出できるAIエージェントは可能かどうかが議論されています。ショルト・ダグラスは、このようなAIエージェントは、来年末(2026年末)までに実現可能だと言っています。

 

果たして、このような急速な進歩は現実的なのでしょうか? このアグレッシブなタイムラインに懐疑的な識者も少なくありません。彼らが指摘するのは、現在のAIが抱える「経験から学べない」という根本的な限界です。

 

継続学習の欠如

ドワルケシュ・パテルは「AGIがすぐそこまで来ているとは思えない理由」と題されたブログ記事で、現在のLLMの根本的な問題として、継続学習の欠如ーLLMが人間のように時間とともに賢くならないことーを指摘しています。

 

多くのタスクにおいてLLMの基本的能力は、すでに平均的な人間を上回っているかもしれません。しかし、モデルを継続的に改善する方法はなく、LLMは基本的に、初期に与えられた能力のまま使い続けるしかありません。

 

人間がこれほど優れた働き手となり得るのは、その生来の知能だけが理由ではありません。間は、文脈を構築し、自身の失敗を問い直し、タスクを練習するにつれて小さな改善や効率性を取り入れる能力を持っています

 

パテルは、この問題を子供にサックスを教える例で説明しています。生徒に、サックスを吹かさせ、自分の音を聞かせ、修正させるという形で学ばせます。しかし、現在のLLMへの「教育」は、まるで生徒が失敗するたびに先生が詳細な指示書を書き、それを次の別の生徒に読ませて再度試すようなものです。どんなに精緻な指示書があっても、サックスを吹く練習なしには誰も演奏できるようにはなりません。

 

マーケティング業務でAIツールを使う際に、なぜ何度も同じような指示を繰り返さなければならないのか。AIアシスタントがこちらの意図を汲んで継続的に賢くなってくれないのはなぜか。その根本的な理由が、この「継続学習の欠如」という問題にあります。

 

プロンプトの工夫やファインチューニングなどの方策はありますが、それは人間の学習のように失敗から学んで適応するプロセスとは本質的に異なります。

 

AI研究者のネイサン・ランバートも、「強化学習の次に来るもの」と題されたブログ記事で、継続学習が現在のLLMに欠けている重要な知能の要素だと述べています。ランバートは、継続学習の実現は、現在の強化学習の拡大の延長線上にあるものではなく、新たな科学的ブレイクスルーが必要だと述べています。

 

では、現在の強化学習はどこまで進化しているのでしょうか。確かに、最近の推論モデル(OpenAIのo1やo3、GoogleのGemini Flash Thinking、DeepSeekのr1など)は、事前学習が完了したモデルに対して、事後学習のフェーズで「検証可能な報酬による強化学習(RLVR)」の技術を適用することによって、大きく進化しました。しかし、こうした成功は正解が明確な領域に限られています。人間のような継続的な学習が必要とされる、より曖昧で長期的なタスクにおいては、強化学習は依然として大きな課題を抱えているのです。

 

報酬が疎な領域での強化学習の難しさ

数学やコーディングなど正解(報酬)の検証が容易な領域では、このRLVRが絶大な効果を発揮します。しかし、タスクが成功したかどうか、フィードバックがすぐに得られない、より長い時間軸を必要とする領域においても、同様の学習効果が見込めるかは疑問視されています。科学の実験、ロボット工学のタスク、複雑なソフトウェア開発などは長い時間を要するタスクです。上述の税務処理や、多くのホワイトカラーの仕事も、同様に成功したのかどうか、すぐに検証できない領域といえるでしょう。

 

強化学習に詳しいネイサン・ランバートによれば、このように報酬が疎(まばら)な領域での強化学習は、以下の理由から困難になります:

  • どの特定の行動がその報酬に繋がったのか、あるいは繋がらなかったのかを特定することが困難
  • より複雑で長期的なタスクでは、問題解決のための一連の試行も長くなり学習速度が遅くなる
  • 強化学習を行うために必要な環境を設計することが難しい

 

ランバートは、こうした課題は、現在の強化学習を拡大するだけでは解決せず、大きなインフラストラクチャの改善とアルゴリズムの発見が必要だと述べています。では、この大きな壁を乗り越えるための、新しい発想やアプローチは存在するのでしょうか。その一つの答えとして注目されているのが、次にご紹介する「経験の時代」という考え方です。

 

「経験の時代」:AIが自ら学ぶ新パラダイム

「継続学習」などの課題を乗り越えるアプローチとして、強化学習の権威であるリチャード・サットン教授らが提唱する「経験の時代」という新パラダイムが注目されます。

これは、AIが人間データに依存する従来の手法から脱却し、AI自身が環境との相互作用による「経験」を通じて自律的に学習する時代への移行を指します。このパラダイムは、主に以下の4つの特徴で定義されます。

 

1.経験のストリーム: 

AIは一度きりの学習で完結せず、人間のように継続的な経験の中で学習し続けますこれにより、短期的な応答だけでなく、数ヶ月~数年単位の長期的な目標達成に向けた行動が可能になります。

例えば、健康AIアシスタントがユーザーの睡眠パターンや活動レベルを数ヶ月間モニターし、長期的な健康目標に基づいてパーソナライズされた推奨事項を調整したり、科学AIエージェントが新しい材料を発見したり、地球温暖化対策を目指すために長期間にわたって実世界の観測を分析・シミュレーションしたりすることが挙げられます。

 

2.行動と観測: 

テキストの入出力に留まらず、AI自らがツールやUI(ユーザーインターフェース)を操作して現実世界で行動し、その結果を観測します。これにより、AIは能動的に世界を探索し、人間には思いつかない戦略を発見できるようになります。

例えば、科学AIエージェントが環境センサーを監視したり、望遠鏡を遠隔操作したり、研究室のロボットアームを制御して自律的に実験を行ったりするようになることが期待されます。

 

3.報酬: 

人間の事前判断に基づく評価に頼らず、「健康指標の改善」や「二酸化炭素レベルの測定値」といった環境から直接得られる客観的な成果(根拠のある報酬)を頼りに学習します

これにより、人間の既存知識を超える新たな戦略の発見が期待されます。

 

4.計画と推論: 

人間の思考を模倣するのではなく、経験を通じてより効率的な独自の(非人間的な)推論方法を発見・改善します。自身の行動がもたらす結果を予測する「世界モデル」を構築し、それに基づいて効果的な戦略を立てることが可能になります。

例えば、AlphaProofが人間とは異なるアプローチで数学の定理を証明したように、AIは人間の思考のバイアスから解放され、データに基づいて新たな原理を自ら発見していくことが可能になります。

 

おわりに

今回は、AIによるホワイトカラー業務の自動化を巡る急速な進展への期待と、その実現に向けた技術的な課題を掘り下げました。Anthropic社などが予測する急進的な未来像がある一方で、現在のLLMには「経験から継続的に学ぶ」能力が欠けており、これが真の自動化への大きな壁となっています。

 

この課題を乗り越える鍵として、AIが自ら現実世界と相互作用し学習する「経験の時代」という新しいパラダイムが提唱されています。短期的なAIツールの進化を追いかけるだけでなく、AIが自律的に成長を始める未来を見据え、その時自社や自身のマーケティング活動がどうあるべきかを想像しておくことが、今求められているのかもしれません。



avatar

馬場 高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR(投資家向け広報)を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。 早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA(ファイナンス専攻)。