MIT、汎用AIが専門アルゴリズムを上回ると実証

研究の要点

不完全情報ゲームで汎用手法が優位
ポリシー勾配法が専門手法を逆転
通説を覆すベンチマーク提案

評価と意義

最大300億状態のゲームで検証
ノートPCで実行可能
軍事や交渉への応用可能性
詳細を読む

マサチューセッツ工科大学(MIT)などの研究チームは2026年6月、ポーカーのように相手の手札が見えない「不完全情報ゲーム」において、汎用的な学習手法が専門的なアルゴリズムを上回ることを示す論文を発表しました。この成果は4月にリオデジャネイロで開かれた国際会議ICLRで報告され、長年信じられてきたゲーム理論ベースの優位性という通説を覆す内容となっています。

従来この分野では、ゲーム理論に基づく専門アルゴリズムが、1990年代に登場した汎用的な「ポリシー勾配法」より明確に優れると考えられてきました。ポリシー勾配法は神経回路網(ニューラルネット)に逐次的な意思決定を学習させる手法で、戦略ゲーム向けには想定されていませんでした。共著者のソコタ氏は「専門アルゴリズムが正しい手法だと当然視されてきた」と振り返ります。

研究チームは新たなアルゴリズムを提案するのではなく、各手法の性能を公平に測るベンチマーク(評価基盤)を提示しました。指標には、最悪の相手と対戦した際の不利さを示す「搾取可能性」を採用しています。最大で300億通りの状態を持つ大規模なゲームでこの指標を機能させた点が、最大の技術的課題だったといいます。

ファントム三目並べやヘックスの変種、ライアーズダイスなど5種類のゲームで実験した結果、ポリシー勾配法で訓練したネットワークの方が低い搾取可能性を記録し、直接対戦でも勝利しました。この評価ソフトは無償公開され、一般的なノートPCでも実行可能で、既存のOpenSpielに1行のコードを追加するだけで使えます。

研究者らは、ここでいう「ゲーム」が娯楽に限らず、あらゆる多主体間の戦略的相互作用を指すと強調します。共著者のビニツキー氏は軍事作戦や取引、交渉など隠れた情報を扱う場面への波及を指摘。グーグル・ディープマインドのゲンプ氏も「古典的な手法の現代化が有効な道だと示す説得力ある研究だ」と評価しています。