MIT、視覚タスク計画の新AI手法を開発 成功率2倍に

ロボットMIT

二段階VLMの仕組み

視覚言語モデル2つを連携
画像から状況を自然言語で記述
PDDL形式に自動変換
古典的ソルバーで計画を算出

性能と汎化能力

平均成功率約70%達成
従来手法の約30%を大幅超越
未知の問題にも50%以上対応
3Dタスクで80%超の精度
詳細を読む

MITの研究チームは、ロボットナビゲーションなど長期的な視覚タスクの計画を自動化する新たな生成AI手法を開発しました。従来手法の成功率が約30%にとどまる中、本手法は約70%を達成し、およそ2倍の性能向上を実現しています。

この手法はVLMFP(VLM誘導形式計画)と呼ばれ、2つの視覚言語モデルが連携して動作します。小型モデル「SimVLM」が画像内のシナリオを自然言語で記述し、行動シミュレーションを実行します。次に大型モデル「GenVLM」がその記述をPDDLという形式計画言語に変換します。

PDDLファイルは古典的な計画ソルバーに入力され、目標達成のためのステップごとの計画が算出されます。GenVLMはソルバーの結果とシミュレーション結果を比較し、PDDLファイルを反復的に改善することで精度を高めています。

本手法の大きな強みは汎化能力です。PDDLのドメインファイルは同一環境の全問題で共通のため、未知の問題にも柔軟に対応できます。2D計画タスクで約60%、マルチロボット協調やロボット組立などの3Dタスクでは80%超の成功率を記録しました。

研究チームは今後、より複雑なシナリオへの対応と、VLMのハルシネーションを検出・軽減する手法の探求を進める方針です。本研究はMIT-IBM Watson AI Labの支援を受け、国際学会ICLRで発表予定です。