Google DeepMindが提唱する「Gemini Robotics」は、デジタル空間で培われた大規模言語モデル(LLM)の知能を、現実の「肉体」を持つロボットへと移植する壮大なプロジェクトです。2025年から2026年にかけて、この技術は研究段階を脱し、実社会で自律的に活動する**「物理エージェント(Physical Agents)」**へと決定的な進化を遂げました。
1. 「脳」と「体」をつなぐ二層のアーキテクチャ
Gemini Roboticsは、従来のロボット制御とは一線を画す**「デュアルモデル・アプローチ」**を採用しています。これは、高度な推論を行う「脳」と、機敏な動作を司る「神経」を分業させる仕組みです。
Gemini Robotics-ER 1.5 (Embodied Reasoning)
身体性推論に特化した「思考モデル」です。
- 物理的アフォーダンスの理解: 「卵は割れやすい」「この重さの箱は両手で持つべき」といった物理特性を理解し、複雑なタスクをステップごとに分解します。
- 思考の透明化: ロボットが行動を起こす前に、その理由を自然言語で構成し、人間に対して計画を説明することが可能です。
Gemini Robotics 1.5 VLA (Vision-Language-Action)
視覚と行動を直結させる「実行モデル」です。
- ゼロショット学習: 学習したことのない新しい道具や環境でも、過去の膨大なデータから推論して即座に対応します。
- 高頻度制御: 思考モデルが立てた計画に基づき、ミリ秒単位でモーターを制御し、滑らかな動作を実現します。
