Meta、1600言語対応の音声認識AIを無償公開

Whisperを凌駕する規模

OpenAIの99言語を圧倒
1600以上の言語を公式サポート
ゼロショット学習で5400言語へ拡張可能
少数言語のデジタル化を促進

ビジネス利用を後押し

Apache 2.0ライセンスで公開
商用利用に一切の制限なし
企業の多言語対応コストを削減
新たな音声アプリ開発の起爆剤
詳細を読む

Metaは2025年11月10日、1,600以上の言語に対応する多言語自動音声認識(ASR)モデル「Omnilingual ASR」をオープンソースで公開しました。このモデルは、OpenAIのWhisper(99言語対応)を大幅に上回る言語カバレッジを誇り、Apache 2.0ライセンスの下で商用利用も可能です。企業の多言語対応や新たな音声アプリケーション開発を加速させる一手となるでしょう。

「Omnilingual ASR」の最大の特徴は、その圧倒的な言語カバレッジです。公式サポートする1,600言語に加え、「ゼロショット学習」という技術を用いることで、事前の再学習なしに新たな言語の文字起こしが可能になります。これにより、理論上は世界に存在する約5,400の言語に対応できるとされ、これまでデジタル化から取り残されてきた少数言語の活用に道を開きます。

企業にとって、このモデルは大きなビジネスチャンスを意味します。ライセンスが商用利用を完全に許可するApache 2.0であるため、大企業も追加費用なしで自社サービスに組み込めます。多言語対応のカスタマーサポート、グローバルなコンテンツの字幕生成、教育ツールなど、これまでコストの壁で実現が難しかった分野での応用が期待されます。

このプロジェクトは、MetaのAI戦略における重要な転換点と見られています。最新の大規模言語モデル「Llama 4」が期待ほどの評価を得られなかった中、Omnilingual ASRはMetaの技術的信頼性を再確立する狙いがあります。制限の多いライセンスから完全にオープンな形態へ移行したことも、コミュニティからの信頼回復とエコシステム拡大に向けた強い意志の表れです。

今回の公開には、複数のモデルファミリーが含まれています。自己教師あり学習用の「wav2vec 2.0」モデルから、高精度な文字起こしを実現する「LLM-ASR」モデルまで、用途に応じて選択可能です。開発者GitHubやHugging Faceを通じて、モデルやデータセットに即座にアクセスし、自社のプロジェクトに統合することができます。

Omnilingual ASRの登場は、音声認識技術のあり方を「固定的な機能」から「コミュニティが拡張できる基盤」へと変える可能性を秘めています。企業は言語の壁を越えた事業展開を加速でき、研究者やコミュニティは言語の多様性を保護・活用する新たなツールを手に入れたことになります。今後の活用事例が注目されます。