AIベンチマーク刷新:実務能力で評価する時代へ

評価指標の抜本的改革

Artificial AnalysisがIntelligence Index v4.0を公開
MMLU-Proなど旧来ベンチマーク3種を廃止
代替に実務タスクを測る10種の評価を導入
AIマーケティングに使われた指標を排除
実際に報酬を受ける仕事を基準に設計

産業への影響と意義

「知能は暗記より経済的有用性で測られる」と分析者
開発者・企業バイヤーが参照するランキングが変化
ベンチマーク飽和問題への業界初の本格回答
モデルの改善速度と評価手法の乖離を解消へ
企業の調達判断基準が変わる可能性
AI投資の費用対効果測定に新軸を提供
詳細を読む

Artificial Analysisは1月6日、AI Intelligence Indexを大幅刷新し、バージョン4.0を公開しました。長年業界標準として使われてきたMMML-Pro、AIME 2025、LiveCodeBenchの3つのベンチマークを廃止し、実際の業務遂行能力を測る10種類の評価に置き換えました。

新指標はエージェント動作・コーディング・科学的推論・一般知識の幅広いカテゴリをカバーしています。開発者や企業バイヤーが参照するランキングに大きな変更が加わるため、AIモデル選定の基準そのものが変わる可能性があります。

研究者のAravind Sundar氏は「この指標の変化は、知能が記憶力ではなく経済的有用性で測られる時代への移行を反映している」とコメントしています。ベンチマークがマーケティング材料と化していた現状に対する業界初の本格的な回答として注目されています。