OpenAI、GPT-5級推論の音声モデル3種をAPI公開
詳細を読む
OpenAIは2026年5月7日、開発者向けRealtime APIに3つの音声モデルを公開しました。GPT-Realtime-2はGPT-5クラスの推論能力を持つ音声対話モデル、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へリアルタイム翻訳するモデル、GPT-Realtime-Whisperは低遅延のストリーミング音声認識モデルです。これらにより、音声アプリケーションの開発が大きく前進します。
GPT-Realtime-2の最大の進化は、対話中にツール呼び出しや推論を行いながら自然な会話を維持できる点です。コンテキストウィンドウは従来の32Kから128Kに拡大され、長時間のエージェント的ワークフローに対応します。推論レベルはminimalからxhighまで5段階で調整でき、応答速度と推論精度のバランスを開発者が制御できます。
ベンチマークでは、Big Bench Audioで前世代比15.2%、Audio MultiChallengeで13.8%のスコア向上を達成しました。不動産大手Zillowは早期テストで、プロンプト最適化後のコール成功率が69%から95%へ26ポイント向上したと報告しています。
翻訳モデルのGPT-Realtime-Translateは、話者のペースに合わせて意味を保持しながらリアルタイム翻訳を行います。Deutsche Telekomは多言語カスタマーサポートでの活用を検証中です。インドの多言語評価では、ヒンディー語・タミル語・テルグ語で他モデル比12.5%低い単語誤り率を記録しました。
価格はGPT-Realtime-2が入力100万トークンあたり32ドル(キャッシュ入力は0.40ドル)、出力100万トークンあたり64ドルです。Translateは1分あたり0.034ドル、Whisperは1分あたり0.017ドルに設定されています。EUデータレジデンシーにも完全対応し、企業のプライバシー要件を満たします。