MIT、LLMの過信を検出する新手法を開発

2026年03月19日リスク品質保証医療 MIT

複数モデル比較手法

モデル間の不一致で過信を検出

自己一貫性だけでは誤答を見逃す

異なる企業のLLMをアンサンブル活用

意味的類似度で認識論的不確実性推定

10タスクで既存手法を一貫して上回る

ハルシネーション検出に高い効果

クエリ数削減で計算コストも低減

正解が一意のタスクで特に有効

出典：MIT News

詳細を読む

MITの研究チームは、大規模言語モデル（LLM）が自信を持ちながら誤った回答を生成する「過信」問題に対処するため、複数モデル間の回答の不一致を測定する新たな不確実性定量化手法を開発しました。この研究はMIT-IBM Watson AI Labとの共同で行われています。

従来の不確実性評価手法は、同じプロンプトを繰り返し入力してモデルの回答の一貫性を測る方式が主流でした。しかしこの方法は偶然的不確実性（モデル自身の内部的な確信度）しか測定できず、モデルが確信を持って間違えるケースを検出できないという根本的な限界がありました。

新手法では、対象モデルの回答を異なる企業が開発した類似規模のLLM群の回答と比較し、意味的類似度に基づいて認識論的不確実性を推定します。研究チームは複雑な手法も試みましたが、異なる企業のモデルを使うというシンプルなアプローチが最も効果的だったと報告しています。

この認識論的不確実性と従来の偶然的不確実性を組み合わせた総合不確実性指標（TU）は、質問応答・要約・翻訳・数学推論など10種類のタスクで評価され、いずれの単独指標よりも信頼性の低い予測を正確に特定しました。さらに、TUの計算に必要なクエリ数は偶然的不確実性の算出よりも少なく済む場合があります。

一方で、事実に基づく質問応答のように正解が一意に定まるタスクでは認識論的不確実性が特に有効である一方、自由記述型タスクでは性能が低下する可能性も明らかになりました。今後は自由記述型への適応や、偶然的不確実性の他の形式の探索が研究課題として挙げられています。