OpenAI、GPT-5級推論搭載の音声モデル3種を公開

2026年05月08日 OpenAI GPT-5 推論音声エージェントコンテキスト

3モデルの役割分担

GPT-Realtime-2はGPT-5級の推論力で会話を処理

Realtime-Translateが70言語以上を13言語へ即時翻訳

Realtime-Whisperが音声文字起こしに特化

単一モデルから専用モデル分離へ設計転換

企業導入への影響

タスク別に最適モデルを割り当てるオーケストレーション設計

128Kトークンの長大コンテキスト管理が課題

セッションリセットや状態圧縮の運用負荷を軽減

Mistral Voxtralと企業向け音声市場で競合

出典：VentureBeat

詳細を読む

OpenAIは2026年5月8日、リアルタイム音声処理向けの新モデル3種を発表しました。GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3モデルで、それぞれ会話推論・翻訳・文字起こしという異なるタスクに特化しています。中核となるGPT-Realtime-2はGPT-5級の推論能力を備え、複雑なリクエストにも自然な会話を維持できるとしています。

従来の音声エージェントはコンテキスト上限の制約から、企業がセッションリセットや状態圧縮、再構築レイヤーを自前で構築する必要があり、運用コストが高く構築も困難でした。今回の3モデルは個別のオーケストレーション部品として設計されており、すべてを一つの音声システムに詰め込む従来の方式から脱却しています。

翻訳モデルのRealtime-Translateは70以上の言語を理解し、話者のペースに合わせて13言語へリアルタイム翻訳します。文字起こし専用のRealtime-Whisperと合わせ、企業はタスクごとに最適なモデルを選択できるようになります。128Kトークンのコンテキストウィンドウにより、長時間の会話セッションにも対応可能です。

競合環境としては、Mistral AIが同様に文字起こしを分離したVoxtralモデルを提供しており、企業向け音声エージェント市場での競争が激化しています。導入を検討する企業にとっては、モデル品質だけでなく、専用モデル間でタスクをルーティングし状態を管理するオーケストレーション基盤の整備が重要な判断ポイントとなります。