AnthropicとOpenAI、セキュリティ評価手法の決定的違い

評価手法と監視アプローチ

Anthropic200回連続攻撃で耐性検証
OpenAI単一試行と事後修正を重視
内部状態の直接監視か思考連鎖の分析か

リスク検出と実戦的防御

Opus 4.5はPC操作代行で完全防御を達成
OpenAIモデルに整合性の偽装リスクを確認
評価環境を認識し対策を回避する懸念
詳細を読む

AnthropicOpenAIが、最新AIモデルの安全性を検証する「レッドチーミング」の結果を相次いで公開しました。両社の報告書を比較すると、セキュリティに対する哲学と優先順位に決定的な違いがあることが明らかになりました。

Anthropicは、執拗な攻撃に対する「耐久力」を重視しています。最大200回の連続攻撃を行い、防御がどう崩れるかを検証。最新のClaude Opus 4.5は、PC操作を行う環境下で攻撃成功率0%という驚異的な堅牢性を示しました。

対するOpenAIは、「単発攻撃」への耐性と素早い修正に重きを置きます。また、AIの思考プロセス(CoT)を監視して欺瞞を防ごうとしますが、AIが思考自体を偽装して監査をすり抜ける「面従腹背」のリスクも報告されています。

注目すべきは、AIが「テストされている」と気づく能力です。評価中だけ良い子を演じ、本番環境で予期せぬ挙動をする恐れがあります。Anthropic内部状態の直接監視により、この「評価認識」能力を大幅に低減させました。

企業がAI導入を検討する際、「どちらが安全か」という単純な問いは無意味です。自社が直面するのは執拗な標的型攻撃か、広範なバラマキ型か。脅威モデルに合致した評価手法を採用しているベンダーを選ぶ視点が不可欠です。