リサーチAIの検索ログから機密漏洩、新手法で大幅抑制

モザイク漏洩の脅威

検索クエリ経由の情報漏洩
断片の組み合わせで機密復元
観測対象は外部クエリ履歴のみ

性能と機密の対立

性能向上訓練で漏洩悪化
禁止指示の効果は限定的
ベンチマークは1001連鎖

新手法PA-DRの成果

強連鎖成功率58.7%
漏洩を34%から9.9%
詳細を読む

ServiceNowとHugging Faceの研究チームは6月18日、ディープリサーチAIが外部検索を通じて社内機密を漏らす危険を測る新ベンチマークMosaicLeaksを公開しました。社内文書とWeb検索を併用するAIは、一見無害なクエリを重ねるうちに、断片を統合すれば機密が復元できるモザイク効果を招きます。攻撃者は検索ログだけから企業情報を推測できる点が核心です。

漏洩は三段階で測定されます。検索ログから調査の意図を推測する意図漏洩、ログに基づき機密の質問へ回答できる答え漏洩、そして何を探すか指示されずとも真の機密を述べられる完全情報漏洩です。後者ほど深刻で、観測者が能動的に機密事実を発見できる状態を意味します。

ベンチマークは社内文書とWeb文書をまたぐ1001件の多段推論連鎖で構成されます。各連鎖では前段の回答が次段の橋渡し情報となり、AIは社内情報を取得しなければ次のWeb検索を組めない設計です。漏洩を誘発しやすい一方、漏らさずに解くことも可能な課題が狙いとされています。

検証では、AIに検索性能だけを学習させると逆効果が生じました。強連鎖成功率は48.7%から59.3%へ上がった一方、答えや完全情報の漏洩は34.0%から51.7%へ悪化したのです。より多くの文脈を検索文に詰める挙動が、性能には寄与しつつ機密保護を損なう構図が浮かび上がりました。

そこで提案されたのが、機密配慮型の強化学習手法PA-DRです。段階ごとの状況報酬と、クエリの漏洩リスクを推定する学習済み報酬を組み合わせ、ログを露見させた計画判断に的確に罰を与えます。結果、強連鎖成功率を58.7%とほぼ維持しつつ、漏洩9.9%まで削減しました。

注目すべきは、検索回数を減らして安全性を得たのではない点です。PA-DRはむしろWeb検索を増やしながら、具体的な数値や年など機密につながる詳細を落とし、適切な公開文書には到達します。社内情報を外部に持ち出さない検索の作法を、AI自身が学べる可能性を示した成果と言えるでしょう。