馬場高志2025/01/24 10:00:001 min read

AIの次のフロンティア：現実世界を理解する世界モデル｜イノーバウィークリーAIインサイト -35

生成AIは言語やイメージの生成で驚異的な進化を遂げてきましたが、現実世界の物理法則や因果関係を本当の意味で「理解」しているとは言えません。そこで注目を集めているのが、人間のように3次元空間を「理解」し、行動の結果を予測できる「世界モデル (World Model)」と呼ばれるAI技術です。

2024年12月、この世界モデルに関する重要な発表が相次ぎました。まず、World Labsというスタートアップが2D画像から3D世界を生成する技術を発表。続いてGoogle DeepMindがGenie 2を、さらにOpenAIのSoraの一般提供開始が発表され、世界モデルへの注目が一気に高まっています。

これらの発表は、一見するとゲームやエンターテインメントのための技術革新のように見えます。しかし、その本質的な意義は、AIがロボットの制御や拡張現実（AR）、複合現実（MR）といった現実世界とデジタル世界を融合する領域で、人間に近い空間認識能力を獲得できる可能性を示した点にあります。世界モデルは、より高度な能力を持つAIエージェントの開発、さらには汎用人工知能（AGI）への重要なステップとして位置づけられています。

本記事では、世界モデルとは何か、なぜ今注目されているのか、最新の開発動向、そしてマーケティングでの活用の可能性について、主要企業の取り組みを交えながら解説していきます。

なぜ世界モデルが重要なのか

生成AIの発展により、ChatGPTのような大規模言語モデル（LLM）は人間のような会話や文章生成を実現し、DALL-EやMidjourneyは驚くほどリアルな画像を生成できるようになりました。しかし、これらのAIには決定的な限界があります。

メタ社のチーフAIサイエンティスト、ヤン・ルカンは「現在のAIは次の単語やピクセルを予測することには長けていますが、物理世界を理解し、行動の結果を予測する能力が欠けている」と指摘しています。例えば、チェスのような複雑なゲームはできても、物を掴んだり、状況に応じて適切に行動したりといった、人間の幼児でも自然にできることが逆に苦手なのです。

この課題を解決するために提案されているのが世界モデルです。人間が頭の中で行動の結果をシミュレーションできるように、AIにも物理法則や因果関係を理解させ、結果を予測できる能力を持たせることを目指しています。

世界モデルとは

世界モデルは、人間の空間認識や物理的な理解能力をAIで再現しようとする試みです。人間は日常生活の中で、物がどのように動くか、どんな結果が起こるかを自然に予測できます。例えば、コップを傾けると水がこぼれる、ボールを投げると放物線を描いて落ちる、といった物理法則を暗黙のうちに理解しています。世界モデルは、このような能力をAIに持たせることを目指しています。

世界モデルは、以下のような能力をカバーします：

3次元空間の理解

物体の位置や大きさを正確に把握
視点が変わっても一貫した空間を維持
オブジェクト同士の位置関係を理解

物理法則の理解

重力や慣性などの基本的な物理法則に従った動きを表現
物体の衝突や相互作用を自然に表現
光や影、反射などの視覚効果を正確に表現

因果関係の理解

行動とその結果の関係を予測
物体の性質に応じた適切な相互作用（例：硬いものは跳ね返り、柔らかいものは変形する）
時間経過に伴う状態の変化を予測

これらの能力は、以下のような分野での革新的な応用が期待されています：

ロボティクス：より自然な動作と環境理解が可能に
自動運転：複雑な交通状況での的確な判断
AR/MR：現実世界とデジタル要素のよりシームレスな統合
シミュレーション：製品開発や訓練用の高精度な仮想環境の生成
クリエイティブ制作：映画やゲームでのよりリアルな映像表現

世界モデル開発の現状

実際に世界モデル開発に取り組んでいる企業を具体的に見てみましょう。

World Labsの大規模世界モデル（LWM）

World Labsは米スタンフォード大学のフェイフェイ・リー教授がジャスティン・ジョンソンなどコンピュータビジョンのトップ研究者たちと今年４月に立ち上げたばかりのスタートアップですが、９月には2億3000万ドルの追加資金調達を行い、現在の評価額は10億ドル以上となっています。

フェイフェイ・リー教授は、2009年に1400万を越える大規模画像データセットである ImageNetの構築を主導し、物体を確実に識別できるコンピュータビジョン技術の時代の幕を開いたことで知られ、「AIのゴッドマザー」と呼ばれています。

World Labsは12月２日にプレビューとして１枚の画像 (２D)からインタラクティブな3D世界を生成する技術を発表しました。World Labsはこれを大規模世界モデル（LWM）と呼んでいます。

LWMで生成した3Dの世界は、キーボードやマウスの操作によって、その中を移動したり、360度見回したりすることができます。「これにより、映画、ゲーム、シミュレーター、その他の物理世界のデジタル表現の生成方法が変わる」としています。

Google DeepMindのGenie 2：基盤世界モデル

Google DeepMindが2024年12月4日に公開した「Genie 2」も、２D画像から多様な３D環境を生成することができる基盤世界モデルです。この環境は、人間のプレイヤーやAIエージェントの訓練と評価に使用されます。

Genie 2は、あらゆる行動（ジャンプ、水泳など）の結果を含む仮想世界をシミュレートできます。大規模なビデオデータでトレーニングされ、オブジェクトの相互作用、複雑なキャラクターアニメーション、物理、他のエージェントの行動をモデル化し予測する能力など、様々な創発的能力を示します。

Genie 2は、以下のような多様な機能を備えています：

アクション制御: キーボードのキーを押すことで実行されるアクションにインテリジェントに応答し、キャラクターを識別して正しく移動させます。
反事実生成: 同じ開始画像フレームから多様な軌跡を生成することができます。これは、エージェントのトレーニングのために反事実的な経験をシミュレートすることが可能であることを意味します。
長期記憶: 視野から消えた世界の部分を記憶し、再び観測可能になったときに正確にレンダリングすることができます。
多様な視点: 一人称視点、アイソメトリック視点（斜め上から見下ろす）、三人称視点など、様々な視点を作成することができます。
オブジェクトのアフォーダンス(注)と相互作用: 風船を割る、ドアを開ける、爆発物の樽を撃つなど、様々なオブジェクトの相互作用をモデル化します。
プレイヤー以外のキャラクター: 他のエージェントをモデル化し、それらとの複雑な相互作用も行います。
物理: 水の効果、煙の効果、重力、点光源と指向性照明、反射、ブルーム、色付き照明をモデル化しています。

Genieは研究と創造的なプロトタイピングのためのツールとして位置づけられており、まだ研究の初期段階にありますが、今後、ゲーム産業やシミュレーション、そしてそれ以外の分野にも大きな影響を与える技術に発展していく可能性を十分に持っているといえるでしょう。

OpenAIのSora

OpenAIのSoraは大規模なビデオデータでトレーニングされた高品質な動画を生成するAIで、12月9日に一般提供が開始されました。Soraはプロンプトに従って高品質な動画を生成でき、複雑なシーン、多様なキャラクター、カメラの動きなどを詳細に表現可能です。

World Lab LWMやGenie 2のように、インタラクティブな3D環境を生成する機能は提供されていませんが、OpenAIもSoraが世界のシミュレーターとしての能力を創発していると述べています。

Soraが示している世界モデル的な能力には以下があります：

3D一貫性：カメラが動いても3次元空間で人間やシーンの要素の動きの一貫性を維持
オブジェクトの永続性：物体が一時的に隠れたり、画面外に出たりしても追跡・維持が可能
世界との相互作用：食べた後の噛み後など行動の影響をシミュレート可能
デジタル世界のシミュレーション：Minecraftなどのゲーム世界も再現可能

しかし、OpenAI自身も認めているように、Soraにはまだいくつかの課題が残されています。物体が不自然に変形したり、物理法則に反する動きをしたりすることがあり、特に長時間の動画生成では一貫性を保つことが難しい場合があります。

おわりに：マーケターが注目すべき世界モデルの可能性

世界モデルは、AIが現実世界を理解し、複雑な問題を解決するための重要な技術です。その発展は、エンターテイメント、ロボティクス、医療など、広い分野に影響を及ぼすと考えられますが、マーケティング活動にも大きな変革をもたらす可能性を秘めています。特に以下の領域での活用が期待されます：

1．商品開発とプロトタイピング

2D画像から即座に3Dモデルを生成し、様々な角度から商品デザインを検討
バーチャルショールームでの商品展示をより簡単に制作
パッケージデザインの実用性テストをバーチャル空間で実施

2．没入型マーケティング体験

商品の使用シーンを臨場感のある3D映像で表現
バーチャルな店舗体験の提供
商品のカスタマイズをリアルタイムでビジュアル化

3．コンテンツマーケティング

商品説明動画の制作コストを大幅に削減
SNS向けの多様なビジュアルコンテンツを効率的に生成
インタラクティブな製品デモンストレーションの作成

4．市場調査・消費者理解

バーチャル環境での商品使用テスト
店舗レイアウトや商品陳列の効果をシミュレーション
消費者の行動パターンを3D空間で分析

現在のWorld Labs、Genie 2、Soraは、世界モデルの初期段階に過ぎません。しかし、その発展スピードを考えると、2～3年後には実用的なマーケティングツールとして私たちの前に現れる可能性が高いと考えられます。

世界モデルは、マーケティングにおけるクリエイティブの可能性を大きく広げる技術です。その発展を注視しながら、自社のマーケティング戦略にどう取り入れていくか、今から考え始める必要があるでしょう。

（注）アフォーダンスというのはアメリカの知覚心理学者ジェームズ・J・ギブソンが提唱した理論で、環境が動物に対して与える「意味」あるいは「価値」を指します。例えば、平らな金属片が付いた扉は押すことを、引き手のついた引き出しは引くべきことを、ドアノブは回して開けることを示唆します。

馬場高志

1982年に富士通に入社、シリコンバレーに通算9年駐在し、マーケティング、海外IT企業との提携、子会社経営管理などの業務に携わったほか、本社でIR（投資家向け広報）を担当した。現在はフリーランスで、海外のテクノロジーとビジネスの最新動向について調査、情報発信を行っている。早稲田大学政経学部卒業。ペンシルバニア大学ウォートン校MBA（ファイナンス専攻）。