多言語音声認識の実力を検証、言語切替時の精度を比較

2026年06月09日 Google OpenAI NVIDIA Gemini 音声ドイツ

ベンチマーク手法と結果

コードスイッチ対応の新評価基準構築

4言語ペアで7つのASRモデルを比較

ElevenLabs Scribe V2が総合首位

誤認識の発生構造

言語切替回数が誤認識発生と相関

混合密度が誤認識の深刻度を左右

英語部分に誤認識が集中する逆説的傾向

上位モデルは切替による精度低下が軽微

出典：Hugging Face

詳細を読む

ServiceNow AIの研究チームは2026年6月9日、コードスイッチ（会話中の言語切替）に対する主要音声認識（ASR）システムの性能を体系的に評価するベンチマークを公開しました。世界人口の半数以上がバイリンガルであるにもかかわらず、企業向け音声エージェントが言語切替にどう対処するかの研究はこれまで不十分でした。本ベンチマークはスペイン語・フランス語・カナダフランス語・ドイツ語と英語の4言語ペアを対象に、HRやITサポートの実務シナリオを用いて評価を行っています。

評価対象はElevenLabs Scribe V2、Google Gemini 3 Flash、AssemblyAI Universal 3-Pro、Deepgram Nova 3、Mistral Voxtral、Nvidia Parakeet、OpenAI Whisper Large V3 Turboの7モデルです。単語誤り率（WER）ではScribe V2とAssemblyAIが僅差で上位を占め、Gemini 3 Flashが僅差で続きました。一方、意味の保持を測るSWERとAERでは、Geminiが言語理解能力を活かしてAssemblyAIを逆転する場面もありました。

Whisperは全指標で最下位となりましたが、これは言語パラメータ未指定時に転写ではなく翻訳をデフォルト動作とする既知の制約が原因です。意味的指標では英語への翻訳が奏功し、他モデルとの差は縮まりました。上位モデルはコードスイッチによる精度低下がごくわずかで、単言語ベースラインとほぼ同等の性能を維持しています。

誤認識の発生メカニズムについても統計分析が行われました。回帰分析の結果、発話内の言語切替回数が多いほど誤認識が発生しやすく、一方で誤認識の深刻度はコード混合指数（CMI）、すなわち副言語の単語比率と相関していました。さらに、誤認識はバイリンガル発話中の英語部分に集中するという直感に反する結果も示されています。英語は単言語では最も得意とする言語でありながら、埋め込み言語として出現した際には音韻や語彙の文脈切替がモデルにとって困難となるためです。

研究チームはベンチマークをオープンソースのAU-Harnessで公開し、企業が自社の顧客が実際に話す言語ペアで検証できるようにしています。合成音声を用いている点や自動言語検出のみで評価している点など限界はあるものの、適切なASRシステムを選択すれば、バイリンガル顧客が自然に言語を切り替えても転写品質を維持できることを実証した意義ある研究です。