感情読むロボット、能力の不足は補えず

2026年06月13日動画ロボットオーストラリア

VLMで感情認識

文脈考慮のVLMで感情推定

従来手法0.77を0.86に改善

表情だけでなく場面全体を解釈

謝罪より能力

40人中31人が適応的謝罪を選好

失敗後は謝罪方法問わず信頼低下

本人の内面的感情は読み切れず

出典：spectrum.ieee.org

詳細を読む

オーストラリアのメルボルン大学の研究チームは6月13日、協働ロボットに人間の感情を読み取らせる手法を検証した研究を公表しました。表情に加えて対話の文脈も考慮する視覚言語モデル（VLM）を用い、40人の被験者を対象に、ロボットの感情認識能力が人間の評価にどう影響するかを実験しました。学部の卒業論文として研究を主導したSeung Chan Hong氏は、ロボットの身体能力だけでなく人間との対話面の革新が必要だと指摘します。

研究ではまず、被験者にロボットが物を手渡す動画を見せ、人間が示す感情を記述させてVLMを訓練しました。表情だけでなく、指を打つ・唇をすぼめるといった文脈的な手がかりも考慮させた点が特徴です。例えば眉をひそめる動作は怒りではなく集中を意味する場合があると説明します。

感情の意味の一致度を0から1で評価したところ、標準的な顔分析に頼る従来のAIが0.77だったのに対し、VLMは0.86を記録しました。Hong氏は、顔だけを短時間見るのではなく、人物の位置や行動、ロボットとの関わり方まで場面全体を捉えられた点が要因だと述べています。

第二の実験では、40人がVLMを使うロボットと対話しましたが、ロボットはわざと失敗するよう設定されました。失敗後、ロボットは相手の反応に合わせた適応的な謝罪か、定型文の謝罪を行います。被験者の31人が前者を好みました。

ただし調査では、感情的な適応よりもロボットの機能性がはるかに重要だと示されました。課題に失敗したロボットに対しては、謝罪の方法にかかわらず多くの被験者が信頼度を下げたのです。Hong氏は、個別の謝罪は社会的な潤滑油にはなるが、課題の失敗で失った信頼までは修復できないと語ります。

さらにVLMは、第三者視点の観察者とは近い判定を示した一方、本人が自己申告した感情との一致度は大きく低下しました。Hong氏は、VLMは外面的な社会的手がかりの優れた観察者だが読心術ではないと述べます。人々はロボットの努力を評価しつつも、最終的には有能な同僚を求めるという結論が示されました。