OpenAI、GPT-5級推論の音声モデル3種をAPI公開

3モデルの特徴

GPT-Realtime-2GPT-5推論搭載
128Kコンテキストで長時間対話対応
Translateは70言語以上のリアルタイム翻訳
Whisperはストリーミング音声認識
推論レベルを5段階で調整可能

開発者向け新機能

並列ツール呼び出しに対応
応答前の前置きフレーズ生成
トーンの動的制御が可能

導入事例と価格

Zillowは成功率26ポイント向上を報告
Realtime-2は入力100万トークン32ドル
EUデータレジデンシーに対応
詳細を読む

OpenAIは2026年5月7日、開発者向けRealtime APIに3つの音声モデルを公開しました。GPT-Realtime-2GPT-5クラスの推論能力を持つ音声対話モデル、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へリアルタイム翻訳するモデル、GPT-Realtime-Whisperは低遅延のストリーミング音声認識モデルです。これらにより、音声アプリケーションの開発が大きく前進します。

GPT-Realtime-2の最大の進化は、対話中にツール呼び出しや推論を行いながら自然な会話を維持できる点です。コンテキストウィンドウは従来の32Kから128Kに拡大され、長時間のエージェントワークフローに対応します。推論レベルはminimalからxhighまで5段階で調整でき、応答速度と推論精度のバランスを開発者が制御できます。

ベンチマークでは、Big Bench Audioで前世代比15.2%、Audio MultiChallengeで13.8%のスコア向上を達成しました。不動産大手Zillowは早期テストで、プロンプト最適化後のコール成功率が69%から95%へ26ポイント向上したと報告しています。

翻訳モデルのGPT-Realtime-Translateは、話者のペースに合わせて意味を保持しながらリアルタイム翻訳を行います。Deutsche Telekomは多言語カスタマーサポートでの活用を検証中です。インドの多言語評価では、ヒンディー語・タミル語・テルグ語で他モデル比12.5%低い単語誤り率を記録しました。

価格はGPT-Realtime-2が入力100万トークンあたり32ドル(キャッシュ入力は0.40ドル)、出力100万トークンあたり64ドルです。Translateは1分あたり0.034ドル、Whisperは1分あたり0.017ドルに設定されています。EUデータレジデンシーにも完全対応し、企業のプライバシー要件を満たします。