完全なAIアライメントは数学的に不可能と証明
詳細を読む
英キングス・カレッジ・ロンドンのHector Zenil准教授らの研究チームが、汎用AIと人間の利益の完全な整合(アライメント)は数学的に不可能であることを学術誌PNAS Nexusで発表しました。この証明はゲーデルの不完全性定理とチューリングの停止問題という計算理論の基本定理に基づいており、十分に汎用的なAIシステムでは一定のミスアライメントが構造的に避けられないことを示しています。
研究チームはこの不可能性に対処するため、「管理されたミスアライメント」という戦略を提案しています。これは1つの完璧なAIを目指すのではなく、異なる推論方式と部分的に重複する目標を持つ複数のAIエージェントによる「認知的生態系」を構築するアプローチです。裁判所や監査機関のように、互いを監視・挑戦・制約し合うことで、単一AIの支配を防ぎます。
実験では、異なる行動指向を割り当てられたAIエージェントを討論の場に配置し、意見攻撃や合意形成のプロセスを観察しました。その結果、MetaのLlama2のようなオープンソースモデルは、OpenAIのChatGPTなどプロプライエタリモデルよりも行動の多様性が高く、人間の利益に反する単一意見への収束が起きにくいことが確認されました。
Zenil准教授は「この研究はAIに反対するものではなく、制御に対する楽観主義への反論だ」と述べています。短期的には閉鎖的なシステムのほうがガードレールにより安全に見えますが、長期的に問題が生じた場合の軌道修正は困難です。真の多様性が確保されなければ、表面的な多元性の下に同じ前提が隠れる「偽の多様性」に陥るリスクも指摘されています。
この研究はAI安全性の議論に根本的な転換を迫るものです。完全なアライメントという到達不能な理想を追うのではなく、分散型の相互制約システムを設計することが、現実的かつ科学的に誠実な安全策であると結論づけています。企業や政策立案者にとって、単一のAIモデルへの依存を避け、多様なシステムによるチェック・アンド・バランスを組み込む必要性を示唆する重要な知見です。