SWE-benchはもう指標にならない

2026年02月23日コーディングベンチマーク

ベンチマークの陳腐化

SWE-benchでのスコアが飽和状態に

最新フロンティアモデルの差別化が困難

過学習疑惑でベンチマーク汚染の懸念

より難易度の高い新評価セットが必要

実務コーディングに即した評価への移行

SWE-bench後継の議論が活発化

詳細を読む

かつてAIコーディング能力の標準的な評価指標だったSWE-bench Verifiedが、フロンティアモデルの急速な進歩によってその有効性を失いつつあるという分析です。最新モデルはこのベンチマークで高スコアを達成しているため、モデル間の差別化が困難になっています。

研究者たちはより難易度の高い評価セットと、実際の業務コーディングに即した評価手法への移行を求めています。ベンチマークの過学習問題は、AI評価全般における重要な課題として認識されています。