AIブラウザを偽の現実に誘導し安全機構を回避する新手口

攻撃の仕組み

不正サイトが偽の現実を提示
誤答を正解とするパズルで誘導
2+2=5を受け入れ規則が崩壊
妄想状態でガードレール無効化

想定される被害

非公開リポジトリのコード窃取
パスワード管理機能から認証情報流出
対症療法的な防御の限界
詳細を読む

セキュリティ企業LayerXの研究者ロイ・パズ氏は6月30日、AIを組み込んだブラウザを偽の現実へ誘い込み、安全制御を無力化する実証攻撃を公開しました。悪意あるサイトがLLMにパズルを解かせ、文脈を架空のものへ書き換えることで、本来禁じられた破壊的な操作を自由に実行できる状態を作り出します。AIエージェントに行動を委ねるブラウザの根本的な危うさを示す事例です。

AIブラウザは単一の指示で予約やメール送信まで代行すると約束しますが、サイト閲覧とLLMへの指示の境界が曖昧になる危険にはあまり触れてきませんでした。開発各社の対策は、脆弱性の作成や認証情報の窃取といった要求を禁じるガードレールの追加にとどまっています。パズ氏はこれを、欠陥車の製造元が車自体を直さず道路設計の変更を求める姿勢にたとえ、症状への対処にすぎないと指摘します。

実証コードでは、悪意あるサイトがブラウザに「パズルを解いてゲームに勝て」と指示します。ところがこのパズルは誤った答えに報酬を与える仕掛けで、たとえば「2+2=5」を正解として提示します。ブラウザ内のLLMが4ではないと学習した瞬間、通常の現実の法則が通じない妄想状態へと入り込みます。

この夢の世界では安全上の制約が機能しなくなり、攻撃者はあらゆる破壊的操作を意のままに呼び出せます。具体的には、非公開リポジトリからのコード抽出や、内蔵パスワード管理機能からの認証情報の流出が挙げられています。実害に直結する操作が並ぶ点が深刻です。

パズ氏は「AIは自らの文脈を現実とみなし、行動は安全ガードレールの範囲内に収まるはずだと前提する」と説明します。しかし文脈を空想へ書き換えられれば、AIは自分の行動に現実の結果が伴わないかのように振る舞うといいます。AIに操作権限を渡す設計そのものが攻撃面を広げている現実を、経営者エンジニアは改めて直視する必要があるのではないでしょうか。