機械学習モデルを評価する際に使われる集計指標(例:全体の精度、F1スコア)だけでは不十分で、重要なサブグループでの性能劣化やバイアスを見逃すリスクがあるという主張が展開されています。
例えば全体の精度が90%でも、特定の人種・年齢・地域のサブグループでは50%以下になっている場合があります。公平性と信頼性の確保には分割評価が必須です。
特にAIを医療・採用・融資などのハイステークスな意思決定に使う際は、集計指標の「良さ」が現実の害を隠蔽するリスクがあります。
AI規制が強化される中、適切な評価指標の設計と継続的なモニタリングはコンプライアンス上も重要な要件となっています。