Google、音声合成Gemini 3.1 Flash TTSを公開

モデル性能と提供形態

Eloスコア1,211でTTS首位級
70以上の言語に対応
Gemini API・Vertex AI・Google Vidsで提供開始
高品質と低コストを両立

開発者向け制御機能

オーディオタグで声質・速度を制御
シーン指示による対話演出が可能
話者ごとの音声プロファイル設定
SynthID透かしで生成音声を識別
詳細を読む

Googleは2026年4月15日、次世代テキスト音声合成モデルGemini 3.1 Flash TTSを発表しました。開発者向けにはGemini APIGoogle AI Studioでプレビュー提供を開始し、企業向けにはVertex AI、一般ユーザー向けにはGoogle Vidsを通じて利用可能となっています。70以上の言語をサポートし、自然で表現力のある音声生成を実現するモデルです。

音声品質の面では、人間のブラインド評価を集約するArtificial Analysis TTSリーダーボードでEloスコア1,211を達成しました。同ベンチマークでは高品質と低コストを兼ね備えた「最も魅力的な象限」に位置づけられており、品質とコストの両立が大きな特徴です。

新機能として導入されたオーディオタグは、テキスト入力にインラインで自然言語の指示を埋め込むことで、声のスタイル・ペース・抑揚を細かく制御できる仕組みです。シーン全体の方向性を設定する「シーン指示」、話者ごとに音声プロファイルやアクセントを指定する「話者レベル設定」、調整結果をAPIコードとしてエクスポートする「シームレスエクスポート」の3段階で構成されています。

安全性の観点では、生成されたすべての音声SynthIDの電子透かしが自動的に付与されます。人間の耳には聞こえない形で音声に織り込まれ、AI生成コンテンツの検出を可能にすることで、偽情報の拡散防止に寄与します。複数の早期テスターからは、オーディオタグによる制御精度の高さと表現力について好意的な評価が寄せられています。