Alibabaの新手法、AIエージェントの無駄なツール呼び出しを98%から2%に削減
詳細を読む
Alibaba研究チームは2026年4月、AIエージェントが外部ツールを過剰に呼び出す問題を解決する強化学習フレームワーク「HDPO(Hierarchical Decoupled Policy Optimization)」を発表しました。大規模言語モデルは従来、Webの検索やコード実行などのツールを盲目的に呼び出す傾向があり、レイテンシの増大、APIコストの浪費、推論精度の低下を引き起こしていました。
HDPOの核心は、タスクの正確性と実行効率を2つの独立した最適化チャネルに分離する点にあります。従来の手法では両者を1つの報酬信号にまとめていたため、効率のペナルティを強くすると必要なツール使用まで抑制され、弱くするとツール乱用を防げないという矛盾がありました。HDPOは不正解の応答にはツール節約の報酬を一切与えず、学習初期は正確性に集中し、推論能力の成熟に応じて効率シグナルを段階的に強化する暗黙的なカリキュラム学習を実現します。
このフレームワークで訓練されたマルチモーダルエージェント「Metis」は、Qwen3-VL-8B-Instructをベースとする80億パラメータモデルでありながら、冗長なツール呼び出し率を98%から2%に削減しました。視覚認識や数学的推論のベンチマークでは、300億パラメータのSkywork-R1V4を含む既存のエージェントモデルを上回る精度を達成しています。
研究チームはMetisのモデルとHDPOのコードをApache 2.0ライセンスで公開しました。論文では「戦略的なツール使用と高い推論性能はトレードオフではなく、ノイズの多い冗長なツール呼び出しの排除が精度向上に直接寄与する」と結論づけており、ツール使用の「実行方法」を教えるだけでなく「いつ使わないか」のメタ認知を育てるパラダイムシフトを提唱しています。