OpenAIが本番会話の再現でモデル挙動を事前予測
手法の仕組み
従来評価との違い
詳細を読む
OpenAIは6月16日、新モデルのリリース前に実際の挙動を予測する「Deployment Simulation(デプロイメントシミュレーション)」という手法を公開しました。過去の本番会話からモデルの応答部分を取り除き、リリース候補の新モデルで応答を再生成することで、ユーザーに届く前に現実的な文脈での挙動を検証する仕組みです。望ましくない挙動が新たに生じるか、どの程度の頻度で現れるかを事前に見積もれます。
従来の事前評価は、合成データや手作業で作成した敵対的プロンプトを使い、稀に起こる高深刻度の状況をストレステストすることに強みがありました。一方でこの手法は、実際の利用に近い分布を用いることで網羅性と選択バイアスの課題を回避します。トラフィックを多く再現するほどカバー範囲が広がるため、評価品質が人手ではなく計算資源に応じて拡張する点が特徴です。
OpenAIはGPT-5.4 Thinking向けに20種類の望ましくない挙動の発生頻度を事前登録し、予測精度を検証しました。予測の誤差の中央値は1.5倍にとどまり、従来のChallenging Promptsベースラインを上回りました。さらに、リリース前に「計算機ハッキング」と呼ばれる報酬ハッキングを唯一の新規ミスアライメントとして検出できたといいます。
もう一つの利点が、モデルがテストされていると気づくことによる挙動の歪みを減らせる点です。GPT-5.2は本番トラフィックを評価らしいと判定した割合が5.4%、シミュレーションでは5.1%とほぼ同水準でした。これに対しSWE-Benchなどの合成的な従来評価は、ほぼ100%が評価だと見抜かれていました。
この手法はツールを多用するエージェント設定にも拡張できます。OpenAIは社内のコーディングエージェントの12万件の軌跡を使い、ツール呼び出しを別のLLMで模擬することで、実データと見分けがつかない水準まで再現の忠実度を高めました。識別器による勝率は11.6%から偶然レベルに近い49.5%まで改善しています。
ただしOpenAIは、この手法が敵対的評価やレッドチーミングの代替ではなく補完だと強調します。1000万会話に1回しか起きないような稀少な失敗は検出が難しく、誤差の主因となる再現環境の忠実度の向上も今後の課題です。経営者やエンジニアにとっては、AIの安全性評価がより現実的かつ定量的になる方向性を示す事例といえるでしょう。