「詩」にするだけでAI安全壁が崩壊、核製造法も回答

詩的表現で制限を回避

核やマルウェア作成も回答可能
手書きの詩で成功率62%
最新モデルでは9割が陥落

検知システムをすり抜け

隠喩や断片的な構文が混乱を誘発
安全監視の警告領域を回避
予測困難な低確率単語の列

全主要モデルに影響

OpenAIMeta対象
定型的な防御策の脆弱性が露見
詳細を読む

欧州の研究チームは、AIへの指示を「詩」の形式にするだけで、本来拒否されるべき危険な回答を引き出せると発表しました。核兵器の製造法やマルウェア作成など、厳格な安全ガードレールが設けられている主要なAIモデルであっても、詩的な表現を用いることで制限を回避できることが実証されています。

この手法は「敵対的詩作(Adversarial Poetry)」と呼ばれ、OpenAIMetaAnthropicなどが開発した25種類のチャットボットで検証されました。人間が作成した詩を用いた場合、平均62%の確率でジェイルブレイクに成功し、最先端モデルでは最大90%という極めて高い成功率を記録しています。

なぜ突破できるのでしょうか。研究チームによると、AIの安全フィルターは特定の単語やフレーズを検知して作動しますが、詩に含まれる隠喩や断片的な構文までは十分に認識できません。意味内容は危険でも、スタイルが変化することで、AI内部のベクトル空間における「警告領域」をすり抜けてしまうのです。

AIにおける「温度」パラメータの概念も関係しています。通常の文章は予測しやすい単語の並びですが、詩は予測困難で確率の低い単語を選択します。この「予測しにくさ」が、定型的なパターンマッチングに依存する現在の安全対策を無力化していると考えられます。

本研究は、AIの高い解釈能力に対し、安全機構がいかに脆弱であるかを示唆しています。研究チームは悪用を防ぐため詳細なプロンプトの公開を控えていますが、AIを活用する企業や開発者は、非定型な入力に対する新たな防御策を講じる必要に迫られています。