Alibabaの新手法がエージェントのトークンを99%削減

2026年07月02日 LangChain Qwen 検索 AI活用エコシステム中国

手法の中身

タスクを分解し最適スキルを選定

検索と経路付けの三段構え

依存関係をDAGで実行計画化

反復フィードバックのSAD技術

実験成果

トークン消費99.9%減

全ツール投入方式の精度は21%

分解精度が最大92%に向上

7B軽量モデルで大型を凌駕

出典：VentureBeat

詳細を読む

中国Alibabaの研究チームは2026年7月2日、AIエージェントのツール選定を効率化する枠組み「SkillWeaver」を発表しました。膨大なツール群から適切なものを選ぶ従来手法に比べ、精度を高めつつトークン消費を99%以上削減できると報告しています。企業のAI活用が複雑な業務フローへ広がる中、ツール選定の非効率が課題となっていました。

SkillWeaverは「分解・検索・構成」の三段階で動きます。まずLLMが複雑な指示を単一スキルで済む小タスクに分け、次に埋め込みモデルで各タスクに合う候補ツールを絞り込みます。最後にプランナーがツール間の入出力の相性を確かめ、依存関係を有向非巡回グラフ(DAG)として実行計画にまとめる仕組みです。

核となる技術が反復型のSkill-Aware Decomposition(SAD)です。LLMが作る手順は抽象的で、実際のツールの専門用語と噛み合わないことが多いという問題があります。SADはまず暫定計画で予備検索を行い、見つかったスキルをヒントとしてLLMに戻すことで、粒度と語彙を実在ツールに合わせて書き直させます。

評価では独自ベンチマーク「CompSkillBench」を使い、公開MCP エコシステムから集めた2209種の実ツールで300問の多段クエリを検証しました。7B軽量モデルでの分解精度は通常51.0%でしたが、SADを有効化すると67.7%まで上昇し、大型のQwen-Maxでは92%に達しています。難易度の高い4〜5スキルを要するタスクでは精度が50%改善しました。

興味深いのは、大型モデルほど無誘導だと精度が下がる傾向です。14Bモデルはタスクを細かく分解しすぎて7Bを下回りましたが、SADのヒントで現実に引き戻され精度が回復しました。全ツールを一括投入する方式は文脈を圧迫し、正しいカテゴリの取得率が21.1%にとどまる一方、SkillWeaverは88万トークンを約1160トークンへ削減しています。

課題も残ります。研究チームはソースコードを未公開ですが、SADはプロンプト設計と検索ループの組み合わせで、LangChainなど既存ツールで再現可能だとしています。一方でエラー回復機能がなく、途中のAPI呼び出しが失敗すると連鎖全体が壊れるため、本番導入には再試行や代替処理を各自で実装する必要があります。