Hugging Face、音声認識評価に非公開データ導入
出典:Hugging Face
詳細を読む
Hugging Faceは2026年5月6日、音声認識モデルの性能を測るOpen ASR Leaderboardに非公開の評価データセットを追加したと発表しました。データはAppen Inc.とDataoceanAIの2社が提供したもので、公開テストセットに過剰に最適化する「ベンチマクシング」やテストセット汚染を防ぐ目的があります。
新たに追加されたデータセットは、朗読形式と自然な会話形式の英語音声で構成されています。アメリカ英語だけでなく、オーストラリア・カナダ・インド・イギリスの各アクセントを含む計11のスプリットが用意され、合計約30時間の音声を収録しています。句読点やケーシング、言いよどみなど、実環境に近い条件での評価が可能です。
評価の公平性にも配慮がなされています。リーダーボードのデフォルトの平均WER(単語誤り率)は従来どおり公開データセットのみで算出され、ユーザーがトグル操作で非公開データを含めた場合にのみスコアが変動します。また、個別スプリットごとのスコアはあえて公開せず、特定のデータ提供元やアクセントに特化した最適化を防いでいます。
モデル開発者が非公開データでの評価を受けるには、GitHubでプルリクエストを提出し、まず公開データセットの結果を報告する必要があります。その後Hugging Face側が非公開データでの評価を実施し、結果を確認するという手順です。Open ASR Leaderboardは2023年9月の開設以来、71万回以上のアクセスを記録しており、今回の更新でベンチマークとしての信頼性がさらに高まることが期待されます。