MS、AIの脆弱性評価を自動化する『RedCodeAgent』

AIの脆弱性を突くAI

MSリサーチが開発
コード生成AIの安全性を評価
レッドチーム業務を完全自動化

RedCodeAgentの仕組み

過去の攻撃経験を学習・記憶
多様な攻撃ツールを動的に選択
サンドボックスでコード実行を評価

明らかになった新事実

既存手法では見逃す脆弱性を発見
従来の脱獄手法は効果が限定的
詳細を読む

Microsoft Researchは、コード生成AIのセキュリティ脆弱性を自動で評価するエージェント「RedCodeAgent」を発表しました。シカゴ大学などとの共同研究で、AIによるソフトウェア開発が急速に普及する中、その安全性を確保する新たな手法として注目されます。これは、人手に頼っていたレッドチーム業務を自動化し、より高度なリスク評価を可能にするものです。

なぜ今、このようなツールが必要なのでしょうか。従来の静的な安全性評価では、AIが実際に危険なコードを生成・実行するリスクを見逃す可能性がありました。また、既存の「脱獄」手法も、コード生成という特有のタスクに対しては効果が限定的であるという課題も指摘されていました。

RedCodeAgentの最大の特徴は、適応的に学習・攻撃する能力です。過去の成功体験を「メモリ」に蓄積し、タスクの難易度に応じて最適な攻撃ツールを自動で選択します。さらに、サンドボックス環境でコードを実際に実行させ、その挙動を評価することで、より現実的な脅威を検出します。

実験では、PythonやJavaなど複数の言語、そして様々な市販のコードエージェントに対してその有効性が実証されました。RedCodeAgentは、他の手法と比較して高い攻撃成功率(ASR)と低い拒否率を達成。これまで見過ごされてきた多くの脆弱性を明らかにしました。

興味深いことに、この研究は「従来の脱獄手法がコードAIには必ずしも有効ではない」という事実も明らかにしました。リクエストを拒否させないだけでなく、意図した通りに有害なコードを生成・実行させることの難しさを示唆しています。RedCodeAgentは、このギャップを埋めることに成功したのです。

RedCodeAgentは、他の全てのベースライン手法が見逃した未知の脆弱性を80件以上発見するなど、目覚ましい成果を上げています。AI開発の安全性を確保するための新たな標準となり得るこの技術は、AIを使いこなす全ての企業にとって重要な意味を持つでしょう。