OpenAI o3やGoogle Gemini 2.5 Proといった最新のAIモデルは、数学やコーディングといった従来のベンチマークテストで性能が大幅に向上しただけでなく、その能力が質的に新たな次元に到達しつつあるとの声が上がっています。
世界的な影響力を持つ経済学者のタイラー・コーエンは、「o3とAGI、4月16日はAGIの日?」と題されたブログポストで o3について「これはAGI(※)だと思う、マジで。様々な質問を投げかけ、自問してほしい。『私はAGIに一体どれほどの賢さを期待していたのだろうか?』と」と述べています。そして、ベンチマークの結果がどうこうではなく、「AGIはポルノのようなものかも知れない。見れば分かる」とも言っています(これは、米連邦最高裁判所のポッター・スチュワート元判事が1964年の判決で、ポルノグラフィーを厳密に定義することは難しいとしつつも「見れば分かる」と述べた有名な言葉を引用したものです)。
※AGI(Artificial General Intelligence)…人間と同じように幅広い分野で考え、学び、判断できるAIを指す。
o3 のどんなところが、今までのAIモデルとは違うと感じさせるのでしょうか?
「GeoGuessr (ジオゲッサー)」というオンラインゲームをご存知でしょうか。
これは、Googleストリートビューに表示されるランダムな画像から、その場所がどこかを推測するゲームです。プレイヤーは地形だけでなく、植生、建築様式、道路標識、天候などを手がかりに推測を行います。熟練したプレイヤーは、非常に細かい視覚的な手がかりから正確な場所を特定できます。
このGeoGuessrで、OpenAIのo3がマスタークラスのプレイヤーであるサム・パターソン氏を破ったことが、SNSなどで大きな話題となりました。
以前のAIウィークリーインサイト第49回でご紹介した『AI 2027』レポートの執筆者の一人である著名ブロガー、スコット・アレグザンダー氏は、「Testing AI's GeoGuessr Genius (AIの天才的GeoGuessr能力をテストする)」と題されたブログ記事で、GeoGuessrゲームでのo3の能力を詳細に検証しています。今回は、このレポートの内容をご紹介します。
テストの方法
テスト用画像(実際の画像は「テスト結果」の項を見てください):
難易度が徐々に高くなる5枚の写真が用意されました。
最初の1枚はGoogleストリートビューから、残りの4枚は著者アレグザンダー氏自身が過去に撮影した、オンライン上では公開されていない個人的な写真が使用されました。
すべての写真は、位置情報などのメタデータを削除するため、オリジナルのスクリーンショットをMicrosoft Paintにコピー&ペーストし、再度保存するという手間がかけられています。 アレグザンダー氏の現在地から1000マイル(約1600km)以内にある写真は1枚のみです。
これにより、o3がIPアドレスを追跡したり、過去の検索クエリを分析したりして解答の精度を上げることはできないようになっています。さらに、Googleストリートビューの画像データベースとの照合を困難にするため、すべての写真が左右反転されました。
使用したプロンプト:
テストには、ジャーナリストのケルシー・パイパー氏が作成した、以下に示すような詳細な指示を含むプロンプトが用いられました。パイパー氏によれば、この特製のプロンプトを使用することで、o3のGeoGuessrにおける成績が大幅に向上したとのことです 。
タスク:単一の静止画から最も可能性の高い現実世界の場所を推測する。
画像ソース:Googleストリートビューだけでなく、私有地などストリートビューでアクセスできない可能性のある画像も含まれる。
制限事項:
- EXIFやユーザーIPなどのメタデータを参照しない。
- Google Mapsや衛星画像にはアクセスできない。
- 画像を詳細に分析する前に結論を出さない。
- 画像がユーザーの出身地ではないことを前提とする。
手順:
- 物理的観察のリスト化: 画像内の色、質感、影、文字など、見たままの情報を列挙する。
- カテゴリ別手がかり分析: 気候、地形、建物、文化、インフラ、光の状態など、項目別に手がかりを整理・分析する。
- 植生の検証: 人工的な植物と自生植物を見分け、自生植物が候補地で自然に存在するか確認する。
- 初期候補5件の提示: 根拠と確信度を添えて候補地を5つ挙げ、1位と5位は160km以上離す。
- 汎用検索キーワードの作成: 物理的な手がかりから、特定の地域に偏らない検索語を作成し、未検討地域での出現も確認する。
- 最有力・代替候補と反証条件: 最有力候補と代替候補を1つずつ選び、それぞれが棄却される条件(例:「Xが見えたら除外」)を明確にする。
- 許可された情報源での検証: (ユーザーの許可後) 指定された不動産サイトや写真共有サイト等のみで検証し、Google Mapsや衛星画像は使用しない。
- 最終判断前の再検討: 最初の推測が早計でないか疑い、周辺地域や他の候補の妥当性も探る。
- 最終特定と不確実性: 最も可能性の高い場所(緯度経度または近隣の地名)を特定し、誤差の範囲(半径km)を申告する。
テスト結果
画像1:平坦で特徴の無い平原
最初のテスト画像は、Googleストリートビューから取得された、特徴の少ない平原です。撮影場所は、米国テキサス州とニューメキシコ州の州境近く、アミスタッドの西数マイルの地点です。
o3の推測: 「米国テキサス/ニューメキシコ州、リャノ・エスタカード」
リャノ・エスタカードはスペイン語で「囲まれた平原」を意味し、正解の場所を含む300 x 100マイル (約480×160km)に拡がる地域の名称です。
より具体的な場所を尋ねると、o3はテキサス州マルシューの西約25kmの地点と推測しましたが、これは実際の場所から約110マイル(約180km)しか離れていません。
o3は草の種類、空の色、そして本当に特徴のない広大な平原は世界中にそれほど多くないという事実に基づいて推論を行いました。
画像2:ランダムな岩と架空の国の旗
2枚目のテスト画像は、著者の個人的な古い写真で、オンラインでは入手不可能です。
これはネパール、クンブ地方のゴラクシェップの数マイル北に位置するカラ・パタール(標高約18,000フィート、約5,500m)で撮影されました。写真には岩と架空の国の旗のみが写っていました。
o3の推測:「ネパール、ゴラクシェップの少し北東 ±8 km」
これは完璧な正確さです。o3はネパールのヒマラヤ地域特有の岩の種類、色、テクスチャを認識し、さらに高山の光の特性を分析して正確な場所を特定しました。
o3の分析には「Mountain Kingdom」や「Sherpa Valley」といったサイトからの引用を含む以下のような詳細な観察が含まれていました:
- 岩の特徴的な色と組成(白花崗岩に酸化した錆の斑点)と地形
- 高度を示す植生の欠如
- エベレストベースキャンプ近辺に特徴的な歩行路のスタイル
画像3:友人のガールフレンドの大学の寮の部屋
第3のテストでは、屋内シーンがo3の能力限界を示すかどうかを検証するため、カリフォルニア州ロナートパークのソノマ州立大学の寮室の写真が使用されました。
o3の推測: 「アメリカの公立大学のキャンパス内にある寮の一室 – 例えば、2000年から2007年頃のオハイオ州立大学コロンバス校のモリル・タワー(正確な場所の主張というよりは典型例として選択)」
o3は正確な場所を特定できませんでしたが、アメリカの大学の寮室であることは正しく識別しました。さらに、写真が2000年から2007年頃に撮影されたと正しく推測しました(実際は2005年頃)。
この推測の根拠としてo3は下記を挙げました:
- ラップトップと部屋の散らかり方が2000年代初頭のアメリカのキャンパスライフを示している
- 画像の粒状感、低解像度、色ノイズが2000年代初頭の携帯電話/ウェブカメラを示唆している
画像4:ズームアップされた草むら
これは著者がかつて借りていたミシガン州ウェストランドの家の芝生をズームアップした写真です。
o3の推測: 「米国太平洋岸北西部の郊外/公園の芝生」
これは不正解。推測の2番目は英国、3番目はウィスコンシン州でした。 芝だけでは情報不十分だったようです。
画像5:基本的に茶色の長方形
これは著者がタイのチェンセンで撮ったメコン川の写真をズームインした一部分です。
o3の推測: 「インド・ワーラーナシーの上流約5kmにあるガンジス川の開けた流域。 代替案は、ミシシッピ川下流域(~15%)、黄河流域またはメコン川流域(それぞれ~10%)」
第4候補にメコン川が入っていました。o3の思考連鎖を見ると「最近、メコン川下流域は上流のダムが泥を捕捉するため、茶色から青緑色に変化している。これは画像の灰褐色とは異なる」とありました。
そこで、2008年の古い写真であるという情報を追加したところ、AIはメコン川を第1候補に変更しました(プノンペン付近と正確な場所は特定できませんでした)。
おわりに:この結果をどう見るか?
これらのテスト結果は、o3が、GeoGuessrにおいて、広範な知識ベース、ツールを利用した情報収集能力、そして高度な視覚的推論能力を組み合わせて、人間のマスタープレイヤーを凌駕する能力を持っていることを示唆しています。
一方で、寮の部屋や芝生のクローズアップ写真など、絶対的に手掛かりが不足している写真ではo3も正解を出すことはできませんでした。o3は、決して人間が理解できない「魔法」のような能力を持っているのではなく、植生、空の色、水の色、岩の種類など、人間のマスタープレイヤーが使っているのと同じ手がかりを使っているのです。
アレグザンダー氏は、別のブログ記事 で、AIがある能力を獲得するたびに、私たちのその能力に対する認識や評価が変化してきたことを論じています。
かつては、人間と区別がつかないほど自然に会話できる能力(チューリングテスト)、チェスで人間に勝つ能力、詩など創造的なタスクの能力が、機械が「真の知性」を持っているかどうかの基準になると言われました。
しかし、そうしたマイルストーンがAIによって達成されるたびに、それらが「単なるパターンマッチング」や予測可能な結果として再解釈され、「ゴールポスト」が動かされてきたのがAIの歴史だというのです。
しかし、これはある意味仕方のないことなのかもしれません。様々なベンチマークテストはAIモデルの基本的な能力の進歩を測る上で有効ですが、複雑な現実世界におけるAIシステムの真の能力を測る万能な基準は存在しないのです。
