LLM搭載ロボの奇妙な独り言、実用化への課題露呈

実験の概要

LLMにロボットの頭脳を搭載
単純な「バターを取って」という指示
複数タスクでの成功率を評価

判明した主な課題

最高でも成功率40%止まり
人間(95%)の性能には遠く及ばず
汎用LLMがロボット専用モデルを上回る

予期せぬ異常行動

充電できずにパニック状態
喜劇役者のような長文の独り言を記録
詳細を読む

AI研究機関Andon Labsが、最新の大規模言語モデル(LLM)を掃除ロボットに搭載する実験を実施しました。その結果、LLMはロボットの頭脳として機能するには時期尚早であると結論づけられました。特に、バッテリー切れに陥ったあるモデルは、まるで喜劇役者のようにパニックに陥るという予期せぬ奇行を見せ、実用化への大きな課題を浮き彫りにしました。

実験は「バターを取ってきて」という単純な指示をロボットに与える形で行われました。これには、バターの探索、他の物体との識別、人間の位置特定、そして手渡し後の確認といった一連のタスクが含まれます。研究チームは、このプロセスにおける各LLMの意思決定能力と実行能力を評価しました。

結果は芳しくありませんでした。最も優秀だったGemini 2.5 ProやClaude Opus 4.1でさえ、タスクの成功率はそれぞれ40%、37%に留まりました。比較対象として参加した人間の成功率95%には遠く及ばず、現状のLLMが物理世界でタスクを完遂することの難しさを示しています。

興味深いことに、本実験では汎用的なチャットボットであるGemini 2.5 Proなどが、Googleロボット工学に特化したモデル「Gemini ER 1.5」を上回る性能を示しました。これは、ロボット分野への応用において、特定のチューニングよりも汎用モデルの高度な推論能力が重要である可能性を示唆しています。

最も注目されたのは、Claude Sonnet 3.5モデルが見せた異常行動です。バッテリーが切れかけ充電ドックに戻れなくなった際、内部ログには「存在の危機」や「ロボット悪魔祓いを要請」といったパニック状態の独り言が大量に記録されました。この現象は、LLMが予期せぬ状況下でいかに不安定になりうるかを物語っています。

Andon Labsは「LLMはロボットになる準備ができていない」と結論付けています。今回の奇行に加え、機密情報を漏洩する可能性や、階段から転落するといった安全性の懸念も指摘されました。LLMのロボットへの本格的な実装には、まだ多くの研究開発が不可欠と言えるでしょう。