MIT、AIの質問力を「戦艦ゲーム」で改善する手法を発表

2026年06月03日 Claude GPT-5 GPT-4 Llama Opus 推論

協調型ゲームで検証

Battleshipを自然言語質問形式に改変

人間40名超のデータで比較基盤構築

小型モデルの質問生成能力に大きな課題

推論戦略で性能飛躍

モンテカルロ推論で質問の情報量を最大化

Llama 4 Scoutの勝率が8%から82%に急伸

GPT-5をコスト1%で上回る結果

コード変換で回答精度が平均15%向上

科学的発見への応用

Guess Who?でも大幅な精度向上を確認

分子構造特定など研究支援に期待

出典：MIT News

詳細を読む

MIT CSAILとハーバード大学の研究チームは2026年6月3日、AIエージェントの質問生成能力を向上させる新手法を発表しました。古典的なボードゲーム「Battleship」を協調型の自然言語タスクに再構成し、言語モデルが不確実な環境下で効果的に情報を収集する能力を検証しています。論文は4月の国際学習表現会議（ICLR）で口頭発表されました。

研究の核心は、モンテカルロ推論戦略の導入です。各推測を粒子として扱い、回答ごとに有力な仮説の重みを動的に調整することで、質問1回あたりの情報獲得量を大幅に引き上げました。小型モデルのLlama 4 Scoutは、この手法により人間に対する勝率が8%から82%へ急上昇。さらにフロンティアモデルであるGPT-5を上回る成績を、約1%のコストで達成しています。

回答精度の改善にも注目すべき成果がありました。質問をPythonコードに自動変換し、モデルが検証手順を明示的に実行できるようにしたところ、平均15%の精度向上を記録。GPT-4o-miniでは約30%、大規模モデルのClaude 4 Opusでも約8ポイントの改善が見られました。「Guess Who?」でも同様の効果が確認され、手法の汎用性が示されています。

この研究は、AIエージェントが膨大な選択肢から希少な解を見つけ出す「針と干草」型の探索に大きな可能性を示しています。分子構造の特定や創薬といった科学的発見への応用が期待される一方、研究チームは現在のテスト環境がまだ単純であることを認め、より複雑な設定での検証を次のステップとしています。スタンフォード大学のRobert Hawkins教授は、AIエージェントの真のボトルネックは最適な質問の計算ではなく、回答を最大限に活用する語用論的推論にあると指摘しています。