MITがロボットに長期記憶、置き場所を言葉で回答

新手法DAAAM

MITが開発した時空間記憶
環境の3D地図に言語説明を付与
自然言語の質問に数秒で回答

性能と高速化

注釈速度を10倍に高速化
従来比21〜53%高い正答率
リアルタイム動作を実現
詳細を読む

米マサチューセッツ工科大学(MIT)の研究チームは6月17日、ロボットが大規模な環境を長期間記憶し、自然言語で問い合わせに答えられる記憶フレームワーク「DAAAM」を発表しました。CVPRで公表されたこの手法は、コンピュータービジョンとロボット地図作成を組み合わせ、「昨夜組み立て始めた部品を取ってきて」といった曖昧な指示にも応答できます。

従来、マルチモーダルの視覚モデルは物体を豊かに描写できる一方で一度に1件しか処理できず、ロボットの地図作成は3D地図を作れても物体の詳細説明を欠くか計算負荷が高いという課題がありました。DAAAMは両者の長所を統合し、ロボットが移動しながら見た物体に説明文を付け、空間的に整理した3D地図として蓄積します。

高速化の鍵は、近接する物体をまとめ、複数の物体が最も明瞭に写るキーフレームを選んで一括で注釈する最適化手法です。これにより各物体を一度だけ注釈すれば済み、処理速度は従来の約10倍に達しました。数分の探索で数百の物体を見るロボットでも、リアルタイムで記憶を形成できます。

蓄積した膨大なデータからの検索には、複数のツールを呼び出す大規模言語モデル(LLM)を採用し、幻覚(ハルシネーションを抑えながら必要な情報を数秒で取り出します。意味検索や位置情報による検索を使い分けることで、質問の種類に応じて従来手法より21〜53%高い正答率を記録しました。

研究を主導したルカ・カルローネ准教授は、人と並んで働くロボットには時間と空間を人間と同じように扱う能力が必要であり、本手法は従来の地図を言語ベースの地図へ変える試みだと説明します。応用先はロボットにとどまらず、保守作業者の異常検知や通勤者の道案内を支援する拡張現実(AR)システムへの展開も視野に入ります。

今後チームは、環境内で起きた重要な出来事を記録する機能や、回答に確信度を組み込む改良を進める方針です。大学院生のニコラス・ゴルロ氏は、あらゆる依頼に応える汎用エージェントの基盤づくりを目指すと語っています。