MIT、LLMでロボに曖昧指示を理解させる新手法

Masked IRLの仕組み

2つのLLMを併用
曖昧な指示を自動補完
不要な環境要素をマスク
重要度を1か0で採点

実験での成果

デモ実演を約5分の1に削減
暗黙の意図把握が最大15%向上
実機アームでも未学習指示に対応
詳細を読む

米マサチューセッツ工科大学(MIT)のCSAILは6月26日、大規模言語モデル(LLM)を使い、ロボットに曖昧な指示を理解させる新手法「Masked Inverse Reinforcement Learning(Masked IRL)」を発表しました。人間が一つひとつ細かく説明しなくても、必要な実演データを従来の約5分の1に抑えながら、ロボットが家庭や工場で安全に作業をこなせるようにする技術です。

この手法では、2つのLLMが役割を分担します。1つ目のLLMは、人間がロボットの関節を直接動かして教える「キネステティック・デモ」の軌跡を最短経路と比較し、「近くにいて」といった曖昧な要求を「テーブルの表面に近づいて」と具体化します。これにより、なぜその動きが重要なのかをモデルが把握できるようになります。

2つ目のLLMは、障害物の位置や対象物の形状など環境の詳細を評価します。タスクに無関係と判断した要素は「マスク」して無視し、各要素を重要なら「1」、そうでなければ「0」と採点します。たとえば実演中に人がテーブルにもたれていたかどうかは「0」となり、最終的な行動計画には反映されません。

この仕組みにより、Masked IRLは3次元シミュレーションと実機の両方で既存手法を上回りました。ノートPCを避けてマグカップを動かすといった課題で、ユーザーが明示しなかった好みを最大15%多く正しく特定できたといいます。少ない実演回数で学習でき、曖昧な指示をそのまま追わせるより成績が良かったとのことです。

実機のロボットアームでも、訓練時に見ていない指示を実行できました。50回のキネステティック・デモで学習した後、利用者のPCにぶつからないようカップを差し出し、テーブルを拭き、人とテーブルの両方を避けてポテトチップスの袋を手渡しました。研究チームは今後、カメラを搭載して周囲を画像で捉え、特定の対象に注目できるよう発展させる計画です。