かつてAIコーディング能力の標準的な評価指標だったSWE-bench Verifiedが、フロンティアモデルの急速な進歩によってその有効性を失いつつあるという分析です。最新モデルはこのベンチマークで高スコアを達成しているため、モデル間の差別化が困難になっています。 研究者たちはより難易度の高い評価セットと、実際の業務コーディングに即した評価手法への移行を求めています。ベンチマークの過学習問題は、AI評価全般における重要な課題として認識されています。