単一AIエージェントがマルチエージェントに勝る条件
詳細を読む
スタンフォード大学の研究チームが、AIのマルチエージェントシステム(MAS)と単一エージェントシステム(SAS)の性能を、同一の「思考トークン」予算のもとで比較した論文を発表しました。企業がマルチエージェント構成に投資する際、その性能向上がアーキテクチャの優位性によるものか、単に計算リソースを多く消費した結果なのかを切り分けることが目的です。
実験の結果、複数ステップの推論タスクにおいて、計算予算を揃えた場合、単一エージェントがほとんどのケースでマルチエージェントと同等以上の精度を達成しました。研究チームはこれを「データ処理不等式」で説明しています。マルチエージェント間の情報伝達では要約や受け渡しのたびに情報が欠落するリスクがあり、単一エージェントは連続した文脈内で推論するため情報効率が高いとしています。
さらに研究チームは、単一エージェントが推論を途中で打ち切る問題に対し、SAS-L(longer thinking)という手法を提案しました。プロンプトを工夫してモデルに曖昧点の特定や候補の列挙を明示的に促すことで、マルチエージェントの協調で得られる効果を単一構成で再現できます。Google Gemini 2.5との組み合わせでは、さらに高い精度を記録しています。
一方で、マルチエージェントが優位になる場面も明確に示されました。ノイズの多いデータや注意散漫要素を含む長い入力、破損した情報など文脈が著しく劣化した環境では、構造化されたフィルタリングや分解・検証を行うマルチエージェントのほうが関連情報を正確に抽出できます。
研究者らは、企業が見落としがちなマルチエージェントの隠れたコストについても警告しています。オーケストレーション自体がただではなく、エージェント追加ごとに通信オーバーヘッド、中間テキストの増大、誤り蓄積のリスクが生じます。この「群れ税(swarm tax)」を払っている企業は、まず同一予算での単一エージェントのベースライン評価を行うべきだと提言しました。ボトルネックが推論の深さなら単一で足り、文脈の断片化や劣化が問題ならマルチが正当化されるという判断基準を示しています。