2025年3月12日、Google DeepMindは先進的なGemini 2.0アーキテクチャに基づく2つの画期的なAIモデル―Gemini RoboticsおよびGemini Robotics‑ER―を発表しました。
これらのモデルは、ロボットに高度な視覚・言語・行動の能力と体現された推論機能を付与します。
それにより、ロボットは従来人間にしかできなかった複雑な物理タスクを、前例のない精度と柔軟性で実行できるようになります。
1. Google DeepMindのGemini Roboticsブレークスルー
背景
今回の発表は、AIとロボティクスの融合における画期的な瞬間を象徴しています。
Gemini 2.0の成功を受け、新モデルはロボットが環境を正確に解釈し、複雑なタスクを自律的に実行する能力を大幅に向上させることを目指しています。
このブレークスルーは、急速に成長するロボティクス業界と、マルチモーダルなAIに関する長年の研究成果の集大成です。


技術的詳細
Gemini Roboticsモデルは、視覚・言語・行動の統合フレームワークを活用します。
これにより、ロボットは複雑なシーンを解釈し、紙の折りたたみや瓶のキャップの取り外しなどの物理タスクを実行できます。
一方、Gemini Robotics‑ERは体現された推論機能を導入し、より高度な空間認識と動的なプログラム実行を実現します。
ALOHA 2のバイアームロボットやApptronikのApolloロボットでの初期テストにより、これらのモデルは卓越した適応性と精度を示しました。
高度なディープラーニングアルゴリズム、センサーフュージョン技術、リアルタイムデータ処理が組み合わされ、さまざまな環境とのシームレスな相互作用が可能となっています。


影響