Microsoft、ロボットAIの視覚的計画能力を測る新ベンチマーク2種を公開
AsgardBenchの概要
視覚フィードバックによる計画修正能力を評価
108タスク・12種類の制御された環境を提供
画像入力で成功率が2倍以上に向上
物体状態の誤認識やループが主な失敗要因
GroundedPlanBenchとV2GP
動作と空間位置の同時計画能力を評価
1,009タスク・最大26ステップの長期計画に対応
V2GPがロボット動画から訓練データを自動生成
統合型が分離型手法を上回る精度を実証
詳細を読む
Microsoft Researchは、ロボットなどの身体性AIが視覚情報をもとに計画を修正できるかを評価する2つの新ベンチマーク「AsgardBench」と「GroundedPlanBench」を公開しました。いずれもオープンソースで提供されています。
AsgardBenchは、3Dシミュレーション環境AI2-THOR上に構築され、家庭内タスクにおいてAIエージェントが視覚観察に基づき計画を逐次修正できるかを測定します。エージェントは毎ターン全手順を提案しますが、実行されるのは最初の1ステップのみで、その結果を見て次の計画を立て直す必要があります。
主要なビジョン対応モデルを評価した結果、画像入力により大半のモデルで成功率が2倍以上に向上しました。一方で、微妙な視覚的差異の識別ミス、タスク進捗の追跡喪失、実行不可能なアクションの試行といった共通の失敗パターンも明らかになりました。
GroundedPlanBenchは、ロボットが「何をするか」と「どこで行うか」を同時に計画できるかを評価します。308のロボット操作シーンから1,009タスクを構築し、V2GPフレームワークがロボットのデモ動画から4万3千件の空間的に紐付けられた訓練データを自動生成します。
評価の結果、自然言語による計画と空間推論を別々に処理する従来の分離型アプローチでは、同一物体への誤った参照が発生しやすいことが判明しました。V2GPで訓練したモデルは計画と空間推論を統合的に処理し、ベンチマークと実機実験の双方で分離型を上回る性能を達成しています。