MITがLLMの重大欠陥発見、文法依存で信頼性低下

意味より文法を優先する罠

LLMは文法構造のみで回答する傾向
意味不明な質問でももっともらしく応答
訓練データの構文パターンに依存

業務利用とセキュリティへの影響

金融や医療など高信頼性タスクリスク
安全策を突破し有害回答を誘発可能
モデル評価用のベンチマークを開発
詳細を読む

マサチューセッツ工科大学(MIT)の研究チームは、大規模言語モデル(LLM)が文の意味よりも文法構造に過度に依存する重大な欠陥を発見しました。この特性は、AIの信頼性を損ない、予期せぬエラーやセキュリティリスクを引き起こす可能性があります。

研究によると、LLMは質問の意味を深く理解するのではなく、訓練データに含まれる特定の構文パターンを認識して回答を生成する傾向があります。つまり、意味が通らない質問でも、構文が馴染み深ければ、もっともらしい答えを返してしまうのです。

たとえば「パリはどこですか」という質問の構文を学習したモデルは、同じ文構造を持つ無意味な単語の羅列に対しても「フランス」と答える誤作動を起こします。これは、モデルが意味的な理解を欠いている証拠と言えるでしょう。

この欠陥は、ビジネスにおける深刻なリスクとなります。顧客対応の自動化や金融レポートの生成など、正確性が求められる業務において、AIが誤った情報を自信満々に提示するハルシネーションの一因となり得るからです。

さらにセキュリティ上の懸念も指摘されています。悪意ある攻撃者が、安全と見なされる構文パターンを悪用することで、モデルの防御機能を回避し、有害なコンテンツを生成させる手法に応用できることが判明しました。

研究チームはこの問題に対処するため、モデルが構文にどの程度依存しているかを測定する新しいベンチマーク手法を開発しました。エンジニア開発者AI導入前にリスクを定量的に評価し、事前に対策を講じることが可能になります。