SWE-benchはもう指標にならない

ベンチマークの陳腐化

SWE-benchでのスコアが飽和状態に
最新フロンティアモデルの差別化が困難
過学習疑惑でベンチマーク汚染の懸念

評価手法の今後

より難易度の高い新評価セットが必要
実務コーディングに即した評価への移行
SWE-bench後継の議論が活発化
詳細を読む

かつてAIコーディング能力の標準的な評価指標だったSWE-bench Verifiedが、フロンティアモデルの急速な進歩によってその有効性を失いつつあるという分析です。最新モデルはこのベンチマークで高スコアを達成しているため、モデル間の差別化が困難になっています。

研究者たちはより難易度の高い評価セットと、実際の業務コーディングに即した評価手法への移行を求めています。ベンチマーク過学習問題は、AI評価全般における重要な課題として認識されています。