2025年8月にGoogle DeepMindが発表したGenie 3は、AIの歴史における大きな転換点となりました。従来の「動画を作るAI」から、**「インタラクティブな世界をシミュレーションするAI」**への進化。2026年現在、最も注目を集めるこの「汎用世界モデル」の正体に迫ります。
1. Genie 3とは?:単なる動画生成を超えた「世界生成」
Genie 3は、テキストプロンプトからリアルタイムに操作可能な3D仮想世界を生成するモデルです。最大の特徴は、それが「固定された動画」ではなく、ユーザーの入力(移動や行動)に応じてその場で世界が紡ぎ出される点にあります。
- リアルタイム・インタラクション: 毎秒24フレーム(24fps)という映画並みの滑らかさで、ユーザーの操作に即座に反応。
- 「見る」から「入る」へ: 視点移動、前進・後退などの操作が可能で、プロンプトひとつで「歩き回れるゲーム世界」が無限に生成されます。
2. 技術的核心:110億パラメータが支える「自己回帰」の魔法
Genie 3の驚異的な能力は、膨大なデータと革新的なアーキテクチャによって支えられています。
■ 基本構造:Autoregressive Transformer
大規模言語モデル(LLM)が「次の単語」を予測するように、Genie 3は**「次のビデオフレーム」を逐次予測**します。
- パラメータ規模: 推定約11B(110億)。
- 推論速度: 1フレームあたり約41msという超高速処理を実現。Googleの専用チップ(TPU v5)による分散推論がこれを可能にしています。
■ 暗黙的な物理法則の理解(Emergent Physics)
驚くべきことに、Genie 3には「重力」や「摩擦」といった物理演算コードは一切書かれていません。
- インターネット上の膨大な映像データから、AIが統計的に**「世界の仕組み」を学習(Self-supervised learning)**。
- 水の流れ、物体の落下、光の反射などが、教わらずとも「それっぽく」再現される創発的物理が備わっています。
