Google、思考するロボットAI発表 物理世界で複雑タスク遂行

エージェント基盤モデルマルチモーダル
詳細を読む

Google DeepMindは2025年9月25日、ロボットが物理世界で複雑なタスクを自律的に解決するための新AIモデル群「Gemini Robotics 1.5」を発表しました。計画を立てる「思考」モデルと指示を実行する「行動」モデルが連携。Web検索で情報を収集し、多段階のタスクを遂行します。汎用ロボットの実現に向けた大きな一歩となり、一部モデルは開発者向けにAPIが公開されます。

今回の発表の核心は2つのモデルの連携です。「Gemini Robotics-ER 1.5」が脳のように高レベルな計画を担当。Google検索を使い情報を集め、物理環境を理解し行動計画を作成します。単一指示への反応を超え、真の課題解決能力を目指します。

計画モデル「ER 1.5」が立てた計画は、自然言語の指示として行動モデル「Gemini Robotics 1.5」に渡ります。行動モデルは視覚と言語を理解し、指示をロボットの動作に変換。例えば、地域のゴミ分別ルールを調べ、目の前の物を正しく仕分けるといった複雑なタスクを実行します。

新モデルの大きな特徴は、行動前に「思考」する点です。単に指示を動作に変換するだけでなく、内部で自然言語による推論を行います。タスクを小さなステップに分解し、複雑な要求を理解。この思考プロセスは言語で説明可能で、意思決定の透明性向上にも繋がります。

「Gemini Robotics 1.5」は、異なる形状のロボット間での学習転移能力も示しました。例えば、2本腕ロボットで学習したスキルが、人型ロボットでも特別な調整なしに機能します。これにより、新しいロボットへのスキル展開が加速し、知能化と汎用化が大きく進むと期待されます。

Google DeepMindは責任ある開発も重視しています。行動前に安全性を考慮する思考プロセスを組み込み、同社のAI原則に準拠。安全性評価ベンチマーク「ASIMOV」を更新し、新モデルが高い安全性能を示すことを確認しました。物理世界でのAIエージェントの安全な展開を目指します。

思考モデル「Gemini Robotics-ER 1.5」は、Google AI StudioのGemini API経由で開発者向けに提供が開始されました。これにより、物理世界で機能するAIエージェントの構築が促進されます。同社はこれを、物理世界での汎用人工知能(AGI)実現に向けた重要な一歩と位置付けています。