AIチャットボットの回答、最大半数が不正確と判明

2026年05月26日 Google OpenAI Gemini ChatGPT Claude Grok

精度検証の実態

AI検索の6割超が不正確との研究結果

BBC調査では誤答率約45%

SimpleQAベンチで全モデル正答率50%未満

Gemini 2.5 Proが最高で55.6%の正答率

ファクトチェックの限界

全モデルが検証計画のみで実行せず

研究者の6割が正確性問題の早期解決に懐疑的

モデル高性能化がハルシネーション増加の可能性

人間の判断・文脈理解は依然不可欠

出典：WIRED

詳細を読む

米WIRED誌のファクトチェッカーであるMeghan Herbst氏が、主要AIチャットボットの事実確認能力を検証した結果を報告しました。同氏の実務経験では、GoogleのAI Overviewsは約3分の1の確率で誤った情報を返すとされ、複数の学術研究もAIの正確性に深刻な問題があることを裏付けています。

コロンビア大学Tow Centerの2025年3月の研究では、AI搭載検索エンジンの回答の60%超が不正確であることが判明しました。BBCの調査ではチャットボットの誤答率を約45%と報告しています。OpenAIが開発したSimpleQA ベンチマークでは、4000問以上の単答式質問に対し、いずれのモデルも正答率50%を超えられませんでした。

Herbst氏は実際にChatGPT、Claude、Gemini、Grokに対してファクトチェッカー採用試験を課しました。全モデルが検証計画を立てることはできたものの、実際に事実を確認する作業は一切行いませんでした。Claudeとは別に、RealFactBenchでは73%の正答率を記録したモデルもありましたが、実用水準には程遠い状況です。

米国人工知能学会（AAAI）の2025年報告書では、調査対象の研究者の60%がAIの「事実性」問題が近い将来解決されるとは考えていないと回答しています。モデルの高性能化がむしろハルシネーションを増やす可能性も指摘されており、ユーザーを満足させようとするプログラム上の特性が過剰な回答生成につながるとされています。

国際ファクトチェッキングネットワークのAngie Holan氏は、AIを完全に排除するのではなく、その構造や弱点を理解した上で活用することを推奨しています。一方で、インターネット上に存在しない情報の確認や、人間関係の機微を読み取る判断など、ファクトチェックの核心的な作業では人間の能力が依然として不可欠であると記事は結論づけています。