OpenAI、GPT-5級推論搭載の音声モデル3種を公開

3モデルの役割分担

GPT-Realtime-2GPT-5級の推論力で会話を処理
Realtime-Translateが70言語以上を13言語へ即時翻訳
Realtime-Whisperが音声文字起こしに特化
単一モデルから専用モデル分離へ設計転換

企業導入への影響

タスク別に最適モデルを割り当てるオーケストレーション設計
128Kトークンの長大コンテキスト管理が課題
セッションリセットや状態圧縮の運用負荷を軽減
Mistral Voxtralと企業向け音声市場で競合
詳細を読む

OpenAIは2026年5月8日、リアルタイム音声処理向けの新モデル3種を発表しました。GPT-Realtime-2GPT-Realtime-TranslateGPT-Realtime-Whisperの3モデルで、それぞれ会話推論・翻訳・文字起こしという異なるタスクに特化しています。中核となるGPT-Realtime-2はGPT-5級の推論能力を備え、複雑なリクエストにも自然な会話を維持できるとしています。

従来の音声エージェントコンテキスト上限の制約から、企業がセッションリセットや状態圧縮、再構築レイヤーを自前で構築する必要があり、運用コストが高く構築も困難でした。今回の3モデルは個別のオーケストレーション部品として設計されており、すべてを一つの音声システムに詰め込む従来の方式から脱却しています。

翻訳モデルのRealtime-Translateは70以上の言語を理解し、話者のペースに合わせて13言語へリアルタイム翻訳します。文字起こし専用のRealtime-Whisperと合わせ、企業はタスクごとに最適なモデルを選択できるようになります。128Kトークンコンテキストウィンドウにより、長時間の会話セッションにも対応可能です。

競合環境としては、Mistral AIが同様に文字起こしを分離したVoxtralモデルを提供しており、企業向け音声エージェント市場での競争が激化しています。導入を検討する企業にとっては、モデル品質だけでなく、専用モデル間でタスクをルーティングし状態を管理するオーケストレーション基盤の整備が重要な判断ポイントとなります。