Alibabaの新手法がエージェントのトークンを99%削減
実験成果
詳細を読む
中国Alibabaの研究チームは2026年7月2日、AIエージェントのツール選定を効率化する枠組み「SkillWeaver」を発表しました。膨大なツール群から適切なものを選ぶ従来手法に比べ、精度を高めつつトークン消費を99%以上削減できると報告しています。企業のAI活用が複雑な業務フローへ広がる中、ツール選定の非効率が課題となっていました。
SkillWeaverは「分解・検索・構成」の三段階で動きます。まずLLMが複雑な指示を単一スキルで済む小タスクに分け、次に埋め込みモデルで各タスクに合う候補ツールを絞り込みます。最後にプランナーがツール間の入出力の相性を確かめ、依存関係を有向非巡回グラフ(DAG)として実行計画にまとめる仕組みです。
核となる技術が反復型のSkill-Aware Decomposition(SAD)です。LLMが作る手順は抽象的で、実際のツールの専門用語と噛み合わないことが多いという問題があります。SADはまず暫定計画で予備検索を行い、見つかったスキルをヒントとしてLLMに戻すことで、粒度と語彙を実在ツールに合わせて書き直させます。
評価では独自ベンチマーク「CompSkillBench」を使い、公開MCPエコシステムから集めた2209種の実ツールで300問の多段クエリを検証しました。7B軽量モデルでの分解精度は通常51.0%でしたが、SADを有効化すると67.7%まで上昇し、大型のQwen-Maxでは92%に達しています。難易度の高い4〜5スキルを要するタスクでは精度が50%改善しました。
興味深いのは、大型モデルほど無誘導だと精度が下がる傾向です。14Bモデルはタスクを細かく分解しすぎて7Bを下回りましたが、SADのヒントで現実に引き戻され精度が回復しました。全ツールを一括投入する方式は文脈を圧迫し、正しいカテゴリの取得率が21.1%にとどまる一方、SkillWeaverは88万トークンを約1160トークンへ削減しています。
課題も残ります。研究チームはソースコードを未公開ですが、SADはプロンプト設計と検索ループの組み合わせで、LangChainなど既存ツールで再現可能だとしています。一方でエラー回復機能がなく、途中のAPI呼び出しが失敗すると連鎖全体が壊れるため、本番導入には再試行や代替処理を各自で実装する必要があります。