GeminiネイティブオーディオがSearch Liveに初搭載
詳細を読む
Googleは2025年12月12日、Gemini 2.5 Flash ネイティブオーディオのアップデートを発表し、音声エージェントの機能を大幅に強化しました。
今回のアップデートでは、関数呼び出しの信頼性向上、複雑な指示への対応強化、マルチターン会話品質の改善という3つの主要な改善が実施されました。
複数ステップの関数呼び出しを評価するComplexFuncBenchオーディオベンチマークでは、Gemini 2.5 ネイティブオーディオが業界最高スコアの71.5%を記録しました。
開発者の指示への準拠率は従来の84%から90%に向上し、出力の完全性に関するユーザー満足度が高まっています。
Gemini 2.5 Flash ネイティブオーディオはVertex AIで一般提供が開始され、Google AI StudioおよびGemini APIでもプレビュー利用が可能になりました。
Shopifyは「1分以内にAIと話していることを忘れる」と述べ、UWMは14,000件以上のローン生成を達成するなど、企業での導入成果が報告されています。
また、Googleの検索機能であるSearch Liveに初めてネイティブオーディオモデルが統合され、より流暢で表情豊かな音声応答が利用可能になりました。
新機能としてリアルタイム音声翻訳が追加され、70言語・2000言語ペアに対応したストリーミング翻訳が提供されます。
この翻訳機能は話者のイントネーションや速度を保持しながら自動言語検出を行い、イヤフォンを通じてリアルタイムに翻訳音声を提供します。
現在はAndroidデバイス向けにGoogleの翻訳アプリでベータ版として展開中であり、2026年中にGemini APIを含むさらなる製品への拡大が予定されています。