Hugging Faceが音声認識評価を刷新、LLM融合が精度で圧倒

2025年11月22日 OpenAI NVIDIA マイクロソフト推論音声 Hugging Face

評価軸の拡張と現状

多言語と長文書き起こしを評価軸に追加

登録モデル数は150以上に急増

LLMデコーダーとの統合が最高精度を記録

高速処理はCTC/TDT方式が最大100倍速

長文認識はクローズドソースが依然優位

英語特化と多言語対応で性能差が顕著

詳細を読む

Hugging Faceは2025年11月、音声認識（ASR）モデルの性能を競う「Open ASR Leaderboard」を大幅に更新しました。従来の短い英語音声に加え、多言語対応や長文書き起こしの評価軸を新設し、ビジネス現場で真に使えるモデルの選定指針を提示しています。

精度の面では、音声処理に特化したConformerエンコーダーとLLMデコーダーを組み合わせたモデルが首位を独占しています。NVIDIAやIBM、Microsoftの最新モデルが示すように、LLMの推論能力を統合することで、認識精度が飛躍的に向上しているのです。

一方で、会議の議事録作成など速度が求められる場面では、選択肢が異なります。LLMベースは高精度ですが処理が重いため、リアルタイム処理にはCTCやTDTといった軽量なデコーダーを持つモデルが適しており、最大で100倍の処理速度を実現します。

多言語対応や長文処理においては、依然としてOpenAIのWhisperや商用のクローズドソースモデルが強力です。特定の言語に特化させて精度を高めるか、汎用性を取るかというトレードオフが存在するため、導入時には用途に応じた慎重なモデル選定が不可欠です。