MIT、LLMの過信を検出する新手法を開発
複数モデル比較手法
モデル間の不一致で過信を検出
自己一貫性だけでは誤答を見逃す
異なる企業のLLMをアンサンブル活用
意味的類似度で認識論的不確実性推定
統合指標の成果
10タスクで既存手法を一貫して上回る
ハルシネーション検出に高い効果
クエリ数削減で計算コストも低減
正解が一意のタスクで特に有効
出典:MIT News
詳細を読む
MITの研究チームは、大規模言語モデル(LLM)が自信を持ちながら誤った回答を生成する「過信」問題に対処するため、複数モデル間の回答の不一致を測定する新たな不確実性定量化手法を開発しました。この研究はMIT-IBM Watson AI Labとの共同で行われています。
従来の不確実性評価手法は、同じプロンプトを繰り返し入力してモデルの回答の一貫性を測る方式が主流でした。しかしこの方法は偶然的不確実性(モデル自身の内部的な確信度)しか測定できず、モデルが確信を持って間違えるケースを検出できないという根本的な限界がありました。
新手法では、対象モデルの回答を異なる企業が開発した類似規模のLLM群の回答と比較し、意味的類似度に基づいて認識論的不確実性を推定します。研究チームは複雑な手法も試みましたが、異なる企業のモデルを使うというシンプルなアプローチが最も効果的だったと報告しています。
この認識論的不確実性と従来の偶然的不確実性を組み合わせた総合不確実性指標(TU)は、質問応答・要約・翻訳・数学推論など10種類のタスクで評価され、いずれの単独指標よりも信頼性の低い予測を正確に特定しました。さらに、TUの計算に必要なクエリ数は偶然的不確実性の算出よりも少なく済む場合があります。
一方で、事実に基づく質問応答のように正解が一意に定まるタスクでは認識論的不確実性が特に有効である一方、自由記述型タスクでは性能が低下する可能性も明らかになりました。今後は自由記述型への適応や、偶然的不確実性の他の形式の探索が研究課題として挙げられています。