Meta新手法、AIが自己対戦で推論能力を自習

SPICEの革新的仕組み

挑戦者AIと推論者AIの自己対戦
挑戦者は文書から難問を自動生成
推論者は元文書なしで解答に挑戦
報酬設計で能力が相互進化

従来手法の課題を克服

情報非対称性で停滞を回避
文書コーパスで幻覚を抑制
人手によるデータセット依存を軽減
数学やコード以外の汎用性を実現
詳細を読む

MetaのAI研究部門FAIRが、シンガポール国立大学と共同で、AIが人間の監督なしに自ら推論能力を高める新フレームワーク「SPICE」を開発しました。これは、AIエージェント同士が自己対戦(セルフプレイ)する仕組みで、一方が問題を作成し、もう一方がそれを解くことで相互に能力を向上させます。高コストな人手によるデータ作成への依存を減らし、AIの自律的な成長を促す画期的な手法として注目されます。

SPICEの核心は、単一のAIモデルが「挑戦者(Challenger)」と「推論者(Reasoner)」という二つの役割を担う点にあります。「挑戦者」は膨大な文書群から難易度の高い問題を生成し、「推論者」は元の文書を見ずにその問題に挑みます。この敵対的な関係性が、AIの能力向上に最適な課題を自動で生み出す「自動カリキュラム」として機能するのです。

従来の自己改善AIには大きな課題がありました。一つは、AIが生成した誤った情報(ハルシネーション)を学習し続けることで、誤りが増幅してしまう問題。もう一つは、問題生成側と解決側が同じ知識を持つ「情報対称性」により、新しい課題が生まれず学習が停滞してしまう点です。これらが自律的な成長を妨げる壁となっていました。

SPICEはこれらの課題を見事に解決します。推論者が元の文書にアクセスできない「情報非対称性」を設けることで、学習の停滞を防ぎます。さらに、ウェブ上の文書など膨大で検証可能な外部知識を基盤とすることで、ハルシネーションの連鎖を断ち切ります。AIが閉じた世界でなく、外部の確かな情報源から学ぶことで、信頼性の高い自己改善が可能になるのです。

研究チームによる性能評価では、SPICEを適用したモデルが、既存の学習手法を用いたモデルの性能を大幅に上回る結果を示しました。特に、数学的な推論や一般的な推論タスクにおいて、その有効性が確認されています。この結果は、SPICEで培われた能力が、特定の分野に留まらない汎用的な知能へと繋がる可能性を示唆しています。

この研究は、AIの自己改善手法におけるパラダイムシフトと言えるでしょう。これまでの閉じた自己対話から、膨大な外部知識と相互作用する「開かれた学習」への転換です。将来的には、テキストだけでなく、動画やセンサーデータなど、現実世界との多様なインタラクションを通じてAIが自ら賢くなる世界の実現が期待されます。