Microsoft、AIスキルを自動最適化するSkillOptを公開
技術の仕組み
詳細を読む
Microsoftは6月11日、AIエージェントのスキルを自動で改良するオープンソース基盤SkillOptを公開しました。基盤モデルの重みを変えずに、指示文をまとめたマークダウン文書を「学習可能な対象」として扱い、性能評価のフィードバックに基づいてスキルを進化させる点が特徴です。MITライセンスで提供され、企業の複雑な業務にエージェントを適応させる手間を大きく減らすことを狙います。
従来、エージェントのスキル調整は手作業が中心で、各ファイルの指示文を書き直しながら改善点を当て推量する非効率な作業でした。SkillOptは深層学習の発想を取り入れ、課題を実行するモデルとスキルを最適化するモデルを分離します。実行で得た成功・失敗の軌跡を分析し、追加・削除・置換の編集を提案したうえで、検証用データで性能が改善した場合のみ採用する仕組みです。
重要なのは、変更が「数学的に妥当な改善か」を保証する設計です。Microsoft Research Asiaの研究者は、チームがスキルを変更できるかではなく、その変更が改善である保証がないことが課題だと指摘します。SkillOptは編集予算を学習率のように使い、検証ゲートで誤った修正を排除し、失敗した編集を記録して再発を防ぎます。
性能面では、評価した52通りのモデル・ベンチマーク・実行環境のすべてで既存手法を上回りました。GPT-5.5ではスキルなしと比べ平均23.5点の改善を示し、小型モデルでも文書理解や逐次的な意思決定で大幅な向上が見られました。最終的なスキルは2000トークン以内に収まり、中央値は約920トークンと、人間が短時間で確認できる読みやすさを保ちます。
実用面では移植性と効率性が強みです。Codex CLIで訓練した表計算スキルをClaude Codeへそのまま移すと、標準設定比で59.7点向上したといいます。スキル1件あたりの訓練費は1〜5ドル程度で済み、導入時に完全に回収できる一度きりの費用とされます。一方で、数十件の代表例と採点可能な評価指標が必要で、主観的な課題には不向きという制約も示されました。