AIコードの防御力向上、攻撃的テストで自動強化
精度と実用性を両立
詳細を読む
マイクロソフトリサーチなどの研究チームが、AIによるコード生成のセキュリティを強化する新フレームワーク「BlueCodeAgent」を発表しました。この技術は、自動化された攻撃的テスト(レッドチーミング)で得た知見を防御(ブルーチーミング)に活用することで、悪意のあるコードや脆弱なコードが生成されるリスクを体系的に低減します。
大規模言語モデル(LLM)によるコード生成は開発を加速させる一方、意図せずセキュリティ上の欠陥を含むコードを生成してしまう課題がありました。従来の防御策は、抽象的な安全指示をAIが理解しきれなかったり、安全なコードまで危険と誤判定する「過剰防衛」に陥りがちでした。この精度の低さが、開発現場での信頼性向上を妨げていたのです。
BlueCodeAgentの中核は、攻撃から防御を学ぶという逆転の発想にあります。まず、多様な攻撃手法を用いて、AIを騙すための指示や脆弱なコードサンプルを大量に自動生成します。次に、この膨大な攻撃データから、AIが守るべき安全規範を『憲法』として抽出。これにより、AIは具体的かつ実践的な指針に基づいて、危険な要求を拒否できるようになります。
さらに、本フレームワークは『動的テスト』を導入し、精度を飛躍的に高めました。AIがコードの脆弱性を検知すると、そのコードを隔離された安全な環境(サンドボックス)で実際に実行し、本当に危険な挙動を示すか検証します。この仕組みにより、静的な分析だけでは避けられない誤検知を大幅に削減し、開発者の信頼と生産性を両立させます。
性能評価において、BlueCodeAgentは目覚ましい成果を上げています。バイアスや悪意のある指示の検知、脆弱なコードの特定といった複数のタスクで、既存の対策を大幅に上回り、精度を示すF1スコアは平均12.7%向上しました。特定のLLMに依存しないため、様々な開発環境で一貫したパフォーマンスを発揮する点も大きな強みです。
この「レッドチームの知見をブルーチームに活かす」アプローチは、AI開発における安全性と生産性のトレードオフを解消する鍵となるでしょう。今後は、ファイルやリポジトリ単位での大規模なコード分析や、テキストや画像など他分野への応用も期待されます。AI活用の信頼性を高める基盤技術として、その展開が注目されます。