OpenAI、GPT-5級推論の音声モデル3種をAPI公開

2026年05月07日 OpenAI ワークフロー GPT-5 エンジニアカスタマーサポート推論

3モデルの特徴

GPT-Realtime-2はGPT-5級推論搭載

128Kコンテキストで長時間対話対応

Translateは70言語以上のリアルタイム翻訳

Whisperはストリーミング音声認識

推論レベルを5段階で調整可能

開発者向け新機能

並列ツール呼び出しに対応

応答前の前置きフレーズ生成

トーンの動的制御が可能

導入事例と価格

Zillowは成功率26ポイント向上を報告

Realtime-2は入力100万トークン32ドル

EUデータレジデンシーに対応

出典：OpenAI公式

詳細を読む

OpenAIは2026年5月7日、開発者向けRealtime APIに3つの音声モデルを公開しました。GPT-Realtime-2はGPT-5クラスの推論能力を持つ音声対話モデル、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へリアルタイム翻訳するモデル、GPT-Realtime-Whisperは低遅延のストリーミング音声認識モデルです。これらにより、音声アプリケーションの開発が大きく前進します。

GPT-Realtime-2の最大の進化は、対話中にツール呼び出しや推論を行いながら自然な会話を維持できる点です。コンテキストウィンドウは従来の32Kから128Kに拡大され、長時間のエージェント的ワークフローに対応します。推論レベルはminimalからxhighまで5段階で調整でき、応答速度と推論精度のバランスを開発者が制御できます。

ベンチマークでは、Big Bench Audioで前世代比15.2%、Audio MultiChallengeで13.8%のスコア向上を達成しました。不動産大手Zillowは早期テストで、プロンプト最適化後のコール成功率が69%から95%へ26ポイント向上したと報告しています。

翻訳モデルのGPT-Realtime-Translateは、話者のペースに合わせて意味を保持しながらリアルタイム翻訳を行います。Deutsche Telekomは多言語カスタマーサポートでの活用を検証中です。インドの多言語評価では、ヒンディー語・タミル語・テルグ語で他モデル比12.5%低い単語誤り率を記録しました。

価格はGPT-Realtime-2が入力100万トークンあたり32ドル（キャッシュ入力は0.40ドル）、出力100万トークンあたり64ドルです。Translateは1分あたり0.034ドル、Whisperは1分あたり0.017ドルに設定されています。EUデータレジデンシーにも完全対応し、企業のプライバシー要件を満たします。