Hugging Face、音声認識評価に非公開データ導入

非公開データの概要

AppenとDataoceanAIが提供
英語の朗読・会話音声を収録
米英豪加印の5アクセント対応
合計約30時間分の音声データ
テストセット汚染防止が主目的

評価方法の設計

平均WERは公開データのみで算出
トグルで非公開データを追加可能
個別スプリットのスコアは非公開
詳細を読む

Hugging Faceは2026年5月6日、音声認識モデルの性能を測るOpen ASR Leaderboardに非公開の評価データセットを追加したと発表しました。データはAppen Inc.DataoceanAIの2社が提供したもので、公開テストセットに過剰に最適化する「ベンチマクシング」やテストセット汚染を防ぐ目的があります。

新たに追加されたデータセットは、朗読形式と自然な会話形式の英語音声で構成されています。アメリカ英語だけでなく、オーストラリア・カナダ・インドイギリスの各アクセントを含む計11のスプリットが用意され、合計約30時間音声を収録しています。句読点やケーシング、言いよどみなど、実環境に近い条件での評価が可能です。

評価の公平性にも配慮がなされています。リーダーボードのデフォルトの平均WER(単語誤り率)は従来どおり公開データセットのみで算出され、ユーザーがトグル操作で非公開データを含めた場合にのみスコアが変動します。また、個別スプリットごとのスコアはあえて公開せず、特定のデータ提供元やアクセントに特化した最適化を防いでいます。

モデル開発者が非公開データでの評価を受けるには、GitHubでプルリクエストを提出し、まず公開データセットの結果を報告する必要があります。その後Hugging Face側が非公開データでの評価を実施し、結果を確認するという手順です。Open ASR Leaderboardは2023年9月の開設以来、71万回以上のアクセスを記録しており、今回の更新でベンチマークとしての信頼性がさらに高まることが期待されます。