Hugging Face、評価結果をモデルページに統合
統合の中身
詳細を読む
Hugging Faceは6月30日、AIモデルの評価結果を集約する取り組み「Every Eval Ever(EEE)」の成果を、同社のモデルページ機能「Community Evals」へ統合したと発表しました。両プロジェクトはともに2026年2月に始動しており、今回の連携で評価結果の報告と閲覧が一つの流れにまとまります。誰がどのモデルをどう測ったかを、利用者が追跡しやすくなる狙いです。
背景には、評価結果が論文やリーダーボード、ブログ、ログなどに散在し、比較が難しいという課題があります。同じモデルを同じベンチマークで測っても、実施者や手法によって数値が変わることが珍しくありません。記事は一例として、LLaMA 65BのMMLUスコアが63.7と48.8の両方で報告されてきた点を挙げ、未記載の評価設定がこうした差を生むと指摘しています。
EEEはこの報告側の問題に対する解決策で、評価結果を単一のJSONスキーマで記録します。実施者、対象モデル、アクセス方法、生成設定、指標の意味などを構造化し、ハーネスのログ、リーダーボードの収集データ、論文の数値を同じ形に揃えます。発足以来、データストアには約22.9万件の評価結果が集まり、2.2万を超えるモデルと2200のベンチマーク、31の報告形式を横断しています。
今回の新機能は、貢献者がEEEの記録をHugging Faceが求めるYAMLファイルへ変換するツールです。これにより、同じ結果を二つの形式で手作業管理する必要がなくなります。ベンチマークはデータセットリポジトリに登録され、モデルのスコアはリポジトリ内の.eval_results配下のYAMLとして保存され、モデルカードと対応するリーダーボードの両方に表示されます。
各スコアには、著者提出・コミュニティ提出・第三者検証のいずれかを示すバッジが付きます。組織の公式アカウント経由で提出すると検証済みチェックマークが表示され、数値が出所から直接来たことを読者に示します。変換ツールは公開前に既存のYAMLを点検し、重複や数値の食い違いを検出したうえで、利用者が「OPEN PRS」と入力するまで一切公開しません。
対応するのは現時点でMMLU-Pro、GPQA、HLE、GSM8Kの4ベンチマークに限られます。それでも、評価データを再生成すれば数十万ドル規模の費用がかかるとされる中で、一度作られた結果を散逸させずに共有できる意義は小さくありません。モデル選定や安全性の評価を担う経営者やエンジニアにとって、信頼できる比較材料が整いつつあると言えるでしょう。