Google新音声AI、会話品質と外部連携が大幅向上
ビジネス実装と新体験
詳細を読む
Googleは12日、AIの音声対話能力を飛躍的に高める新モデル「Gemini 2.5 Flash Native Audio」を発表しました。この更新により、複雑なワークフロー処理やユーザー指示の理解度が大幅に向上し、より自然で実用的な音声エージェントの構築が可能になります。開発者や企業は、Vertex AIなどを通じて即座に利用を開始できます。
特筆すべきは、外部ツールを操作する「Function Calling」の精度の高さです。ベンチマークで71.5%という高スコアを記録し、会話の流れを止めずにリアルタイム情報を取得する能力が強化されました。また、開発者の指示を守る順守率も84%から90%へ改善されており、意図通りの動作を安定して実現します。
この進化は、企業の生産性に直結します。既にShopifyや米住宅ローン大手のUWMが導入し、顧客対応やローン処理の効率化で成果を上げています。AIが文脈を記憶し、多言語を切り替えながら感情豊かに話すことで、ユーザーがAIであることを忘れるほどの自然な顧客体験を提供できるのです。
グローバルビジネスを加速させる「リアルタイム音声翻訳」も見逃せません。話し手の抑揚やペースを維持したまま、70以上の言語間で双方向の会話を自動翻訳します。ノイズ除去機能も備え、騒音下でもスムーズな意思疎通を支援するこの機能は、Google翻訳アプリでベータ版として提供されます。
さらに、この技術はGoogle検索の対話機能「Search Live」にも統合され、情報収集の在り方を変えようとしています。高度な音声AIを自社サービスに組み込みたいエンジニアやリーダーにとって、Gemini 2.5は強力な武器となるでしょう。APIは現在、Vertex AIなどで利用可能です。
