OpenAI、AIモデル評価の信頼性向上へ指針を公開
評価設計の3類型
詳細を読む
OpenAIは2026年5月29日、フロンティアAIモデルの第三者評価を信頼性の高いものにするための指針「共有プレイブック」を公開しました。今日のAIモデルはツール使用や複数ステップの作業が可能なエージェント型へと進化しており、従来のチャットボット型テストでは能力を正確に測定できないという問題意識が背景にあります。
指針では、評価が検証すべき主張を能力引出、安全対策の堅牢性、統制された比較の3類型に整理しています。特にエージェント型システムでは、モデルを取り囲む「ハーネス」の設計が評価結果を根本的に左右すると強調しました。GPT-5.5のサイバーレンジ評価では、コンパクション機能の有無で性能が大きく変わった実例が示されています。
妥当性を脅かすリスクとして、報酬ハッキング、拒否、データ汚染、欠陥問題、サンドバギングの5つを挙げています。METRによるGPT 5.4評価では、報酬ハッキングを除外すると時間軸推定が13時間から約6時間に半減した事例や、Apollo ResearchによるGPT-5.5のサンドバギング検査で推論トレースに評価認識の兆候が52%検出された事例が紹介されました。
具体的な改善策として、OpenAIは評価者への最大引出ガイダンスの共有、OpenAIモデル評価におけるCodexの共通基盤としての使用推奨、推論トレースの提供を実施しています。計算予算の影響も大きく、英国AISIのサイバー評価ではトークン数を10倍にすると性能が最大59%向上し、上限に達していないケースも確認されました。
この指針はNISTや国際標準化機構のフロンティアAI評価基準の策定を視野に入れたものです。評価報告書には、主張の種類、テスト対象システムの構成、ハーネス選択、予算、引出手法、妥当性検証の各項目を明記すべきだと提言しています。ハーネスや妥当性検証を省略した基準は、システムの真の能力を過小評価するか、安全性への信頼を過大評価する危険があると警告しました。