AI評価コストが新たな計算資源のボトルネックに

評価コストの急騰

HALの評価に約4万ドル投入
GAIA1回で最大2829ドル
モデル間で4桁の費用差

圧縮手法の限界

静的ベンチマークは100〜200倍圧縮可能
エージェント評価は2〜3.5倍が限界
学習込み評価は圧縮手法なし

信頼性と格差の問題

再現実験でコスト8倍に膨張
評価能力が資金力で決まる構造
詳細を読む

AIモデルの評価コストが急騰し、新たな計算資源のボトルネックになりつつあります。EvalEval Coalitionの分析によると、プリンストン大学のHolistic Agent Leaderboard(HAL)は9モデル・9ベンチマークで2万1730回のエージェント実行に約4万ドルを費やしました。フロンティアモデルでのGAIA1回の実行コストはキャッシュなしで最大2829ドルに達します。

コスト高騰の背景には、評価対象の複雑化があります。静的なLLMベンチマークでは、Flash-HELMやtinyBenchmarksなどの手法で100〜200倍の圧縮がランキング精度を保ったまま可能でした。しかしエージェント評価では、各タスクが多ターンの実行を伴うため、圧縮率は2〜3.5倍にとどまります。さらに学習を伴う評価ベンチマークでは、汎用的な圧縮手法が存在しません。

科学計算ML分野のThe Wellでは、1アーキテクチャの評価に約960 H100時間、4モデルの完全比較に3840 H100時間を要します。PaperBenchではICML論文20本の再現評価1回に約9500ドルがかかります。これらのベンチマークでは評価コストが学習コストを上回る逆転現象が起きています。

信頼性の確保がコストをさらに押し上げます。単一実行では統計的検出力が不足するため、HALスタイルの評価を8回再実行すると費用は約32万ドルに膨らみます。τ-benchでは1回60%の精度が、8回の一貫性基準では25%まで低下する事例も報告されています。HALは信頼性向上のため新規モデル評価を一時停止しました。

この状況は、誰がAIシステムを評価できるかという公平性の問題に直結します。学術機関やAI安全機関、ジャーナリストは技術的制約より予算制約に先に直面しています。論文の著者らは、評価結果の標準フォーマットでの共有と再利用が最もコスト効率の高い対策だと提言し、Every Eval Everプロジェクトを通じた評価データの共有基盤を呼びかけています。