Meta、LLMの思考回路を可視化し修正する新技術
詳細を読む
Metaとエディンバラ大学の研究チームが、大規模言語モデル(LLM)の「ブラックボックス」内部を解明し、推論の誤りを検知・修正する新技術「Circuit-based Reasoning Verification(CRV)」を開発しました。この「ホワイトボックス」アプローチは、LLMの思考プロセスを可視化し、AIの信頼性を飛躍的に高める可能性を秘めています。
LLMは複雑なタスクで高い性能を発揮しますが、その思考の連鎖(Chain-of-Thought)は必ずしも信頼できません。従来の検証手法は、出力結果から判断する「ブラックボックス」型か、内部状態を限定的に見る「グレーボックス」型でした。CRVは、モデル内部の計算プロセス自体を分析する「ホワイトボックス」アプローチで、なぜエラーが起きたかの根本原因を突き止めます。
CRVの核心は、LLMがタスクを遂行するために使う神経細胞の特定のサブグラフ、すなわち「回路」の存在を仮定する点にあります。この回路の実行過程を追跡することで、開発者がソフトウェアのバグを特定するように、AIの推論の欠陥を診断できるのです。これはAIのデバッグにおける大きな進歩と言えるでしょう。
研究チームは、モデルの内部表現を解釈可能な特徴に変換する「トランスコーダー」を導入。これにより、推論の各ステップで情報の流れを示す「アトリビューショングラフ」を作成します。このグラフの構造的特徴を分析し、エラーを予測する分類器を訓練することで、リアルタイムでの推論監視が可能になります。
実証実験では、Metaの「Llama 3.1 8B」モデルを使い、CRVが従来手法を大幅に上回る精度でエラーを検出できることを確認しました。さらに重要なのは、エラーの兆候が単なる相関ではなく因果関係を持つと示した点です。実際に、誤った計算の原因となる特徴を特定し、その活動を抑制することでモデルの推論を正すことに成功しています。
この研究は、AIの解釈可能性と制御における大きな一歩です。CRVはまだ研究段階ですが、将来的にはAIモデルの根本原因を特定するデバッガーツールの開発に繋がる可能性があります。これにより、高価な再トレーニングなしに、より正確で信頼性の高いAIシステムの構築が期待されます。