MIT、AIの「自信過剰」を正す訓練手法を開発

2026年04月22日 OpenAI 推論強化学習推論モデルリスク医療

過信の原因と解決策

標準的な強化学習が過信を助長

正解・不正解の二値報酬が原因

RLCR手法で信頼度スコアを同時出力

Brierスコアで報酬関数を補正

精度と実用性

校正誤差を最大90%削減

精度を維持したまま不確実性を表現

未知のタスクにも汎化を確認

信頼度による回答選択で精度向上

出典：MIT News

詳細を読む

MIT CSAILの研究チームが、AIモデルに「わからない」と言わせる訓練手法RLCR（Reinforcement Learning with Calibration Rewards）を開発しました。現在の推論モデルは、正解でも推測でも同じ確信度で回答する傾向があり、医療・法律・金融など意思決定に使われる場面で深刻なリスクとなっています。この研究は国際学習表現会議（ICLR）で発表されます。

問題の根本は、OpenAIのo1などに使われる強化学習の報酬設計にあります。従来の手法では正解に報酬、不正解に罰則を与えるだけで、モデルが自身の確信度を表現する動機がありません。その結果、モデルは不確かな場合でも自信を持って回答するよう学習してしまいます。共同筆頭著者のMehul Damani氏は「標準的な訓練では、不確実性を表現するインセンティブが一切ない」と指摘しています。

RLCRは報酬関数にBrierスコアを追加することでこの問題を解決します。Brierスコアはモデルが表明した信頼度と実際の正答率のギャップを測る指標で、自信過剰な誤答と不必要に慎重な正答の両方にペナルティを課します。研究チームは70億パラメータのモデルで検証し、6つの未知のデータセットを含む複数のベンチマークで、校正誤差を最大90%削減しながら精度を維持・向上させました。

共同筆頭著者のIsha Puri氏は「通常の強化学習は校正を改善しないだけでなく、積極的に悪化させる」と述べています。モデルの能力が上がるほど過信も強まるという逆説的な現象が確認されました。一方、RLCRで訓練されたモデルは複数の候補回答から信頼度の高いものを選ぶことで、推論時の精度と校正の両方を改善できます。

さらに興味深い発見として、モデルが不確実性について推論する行為自体に価値があることも示されました。モデルの自己省察的な推論を分類器の入力に含めると、特に小規模モデルで性能が向上したのです。AIの信頼性向上を求める実務家にとって、「自分が何を知らないか」を表現できるモデルの実現は大きな一歩と言えるでしょう。