Anthropic、インジェクション耐性を公開

公開データの内容

Claudeの攻撃成功率を開示
制約環境で成功率0%を達成
非制約時の脆弱性も明示

業界への影響

企業セキュリティチームが注目
透明性の新基準を提示
ベンダー間比較が可能に
詳細を読む

AnthropicClaudeモデルのプロンプトインジェクション攻撃に対する失敗率データを公開しました。企業のセキュリティチームが求めていた透明性を提供しています。

制約付きコーディング環境ではClaude Opus 4.6への攻撃成功率は200回の試行で0%でした。セーフガードなしでもこの結果が得られています。

ただし非制約環境に移行すると成功率が上昇することも正直に開示されており、環境設計の重要性が強調されています。

これはAIベンダーがセキュリティデータを積極的に公開する画期的な動きです。他社にも同様の情報開示を求める圧力が高まる可能性があります。

企業がAIを本番導入する際、プロンプトインジェクション耐性は最重要評価項目の一つであり、今回の公開はその判断材料として大きな価値を持ちます。