Cohere、オープンウェイト音声認識モデルを公開
出典:VentureBeat
詳細を読む
Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。
TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。
最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。
対応言語は英語、フランス語、ドイツ語、日本語、中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。
企業のエンジニアリングチームにとって、RAGパイプラインやエージェントワークフローに音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。