MS、AIの情報漏洩を防ぐ「文脈理解」新技術を発表

AIエージェントプライバシー制御

文脈で適切性を判断するコンテキスト・インテグリティ
自律型AIによる意図しない情報漏洩を防止
推論時に監視するPrivacyCheckerを開発
動的環境での情報漏洩を劇的に低減

推論時監査とモデル学習の融合

思考の連鎖でモデル自身が共有可否を推論
強化学習により有用性と安全性を両立
外部監視と内部学習の補完的アプローチ
詳細を読む

Microsoft Researchは2025年11月、AIモデルの情報漏洩を防ぐための新たなアプローチを発表しました。AIが「誰に・何を・なぜ」共有するかというコンテキスト・インテグリティ(文脈的整合性)を理解し、自律的なエージェント活動におけるプライバシーリスクを最小化する技術です。推論時の外部チェックとモデル自身の学習という2つの手法を組み合わせ、実用性と安全性の両立を目指します。

自律型AIエージェントの普及に伴い、意図しない情報漏洩が深刻な課題となっています。従来のLLMは文脈認識が不足しており、予約代行時に不要な保険情報を漏らすといった不適切な挙動を起こしかねません。そこでMicrosoftは、状況に応じた適切な情報フローを制御するコンテキスト・インテグリティの概念をAIシステムに適用しました。

一つ目の解決策は、推論時に動作する軽量モジュールPrivacyCheckerです。これはAIの出力前に情報の送信元・受信先・内容を監査し、不適切な共有をブロックします。実験では、複数のツールやエージェントが連携する複雑な動的環境においても、タスク遂行能力を維持したまま情報漏洩率を大幅に削減することに成功しました。

二つ目は、モデル自体に文脈判断能力を持たせる手法です。「思考の連鎖CoT)」を用いて共有の可否を推論させると同時に、強化学習(RL)でトレーニングを行います。これにより、単に情報を隠すあまり役に立たなくなる「過剰な保守性」を防ぎ、高い有用性と強固なプライバシー保護を両立させました。

これらの技術は、外部監視と内部学習という異なる角度からアプローチしており、相互に補完し合う関係にあります。企業が複雑なAIエージェントシステムを導入する際、これらの手法を適用することで、ユーザーの信頼を損なうことなく、生産性を高めることが可能になります。