Google、リアルタイム音声AI「Gemini 3.1 Flash Live」を公開

性能と主な特徴

会話速度での低遅延応答
90以上の多言語に対応
ComplexFuncBenchで90.8%達成
騒音環境でのタスク完遂率向上

展開と活用先

Google AI Studio開発者向け提供
Search Liveが200以上の国・地域に拡大
Verizon・Home Depotなど企業採用進む
SynthIDによる音声透かし搭載
詳細を読む

Googleは2026年3月26日、リアルタイム音声・ビジョンAIモデル「Gemini 3.1 Flash Live」を発表しました。開発者向けにはGemini Live APIを通じてGoogle AI Studioで提供が開始され、企業向け・一般ユーザー向けにも順次展開されます。

同モデルは音声AIにおける低遅延と自然な対話を重視して設計されています。ピッチやペースといった音響的なニュアンスの認識能力が従来の2.5 Flash Native Audioから大幅に向上し、より人間らしいリズムでの応答を実現しています。

ベンチマークではComplexFuncBench Audioで90.8%のスコアを記録し、複雑な多段階タスクの実行能力で他モデルを上回りました。Scale AIのAudio MultiChallengeでも36.1%でトップとなり、実環境での割り込みや言い淀みへの耐性が証明されています。

実用面では、騒音環境下でのバックグラウンドノイズ除去が改善され、複雑なシステム指示への遵守率も向上しました。90以上の言語をサポートし、Search Liveの200以上の国・地域へのグローバル展開を支えています。

開発者向けにはLiveKitやPipecatなどパートナー統合のエコシステムも拡充されています。すべての音声出力にはSynthIDによる電子透かしが付与され、AI生成コンテンツの検出を可能にすることで、誤情報対策にも配慮した設計となっています。