AIベンチマーク刷新:実務能力で評価する時代へ
出典:VentureBeat
詳細を読む
Artificial Analysisは1月6日、AI Intelligence Indexを大幅刷新し、バージョン4.0を公開しました。長年業界標準として使われてきたMMML-Pro、AIME 2025、LiveCodeBenchの3つのベンチマークを廃止し、実際の業務遂行能力を測る10種類の評価に置き換えました。
新指標はエージェント動作・コーディング・科学的推論・一般知識の幅広いカテゴリをカバーしています。開発者や企業バイヤーが参照するランキングに大きな変更が加わるため、AIモデル選定の基準そのものが変わる可能性があります。
研究者のAravind Sundar氏は「この指標の変化は、知能が記憶力ではなく経済的有用性で測られる時代への移行を反映している」とコメントしています。ベンチマークがマーケティング材料と化していた現状に対する業界初の本格的な回答として注目されています。