HarnessXの中核
詳細を見る
中国Xiaomiの研究チームは6月24日、AIエージェントの土台となるハーネス(足場ソフト)を実行中に自動で書き換える枠組み「HarnessX」を発表しました。ハーネスはLLMと外部環境をつなぐプロンプトやツール、記憶管理、制御フローの総体で、従来は人手で固定的に作られてきました。HarnessXはこれを自律的に改善し、15のモデルとベンチマークの組み合わせで平均14.5%の性能向上を示しました。
最大の特徴は、ハーネスを独立して交換可能な第一級の部品として扱う点です。どのモデルを使うかという設定と足場の設定を分離することで、土台のモデルに触れずに足場だけを入れ替え、進化させられます。各挙動は「プロセッサ」として実装され、周囲を壊さずに追加や削除ができます。
この最適化を自動化するのが、強化学習で足場を進化させるエンジン「AEGIS」です。実行ログを要約する「Digester」、構造的な変更を探る「Planner」、コード編集を生成し検証する「Evolver」、そして報酬ハッキングを検知する「Critic」と退行を防ぐゲートの4段構成で動きます。これにより、既に解けた処理を壊さずに失敗パターンを修正します。
検証では、ソフトウェア開発やWeb操作、接客対話など5分野で試験し、15組中14組で性能が向上しました。特に効果が大きかったのは性能の低い小型モデルで、オープンウェイトのQwen3.5-9Bは身体的計画タスクで44%、コーディングで18.2%の上昇を記録しています。土台モデルの規模拡大だけが性能向上の道ではないことを示す結果です。
さらに、足場の進化で得たログをモデルの強化学習に転用する共進化により、追加で平均4.7%の上乗せも確認されました。足場とモデルを同時に改善することで、それぞれを単独で磨く場合の限界を超えられるといいます。実例では、Wikipedia収集に失敗したエージェント向けに、ブラウザを介さずAPIを直接叩く新ツールを自動生成し、失敗していた処理を解消しました。
一方で課題も残ります。足場を書き換えるメタエージェントにはClaude Opusなどの高性能な閉鎖モデルが必要で、オープンウェイトモデルが同役を担えるかは未検証です。土台モデルが弱すぎる場合は改善が頭打ちになる点も確認されました。それでも、高価な最先端モデルに乗り換える前に足場の進化を試す価値は大きく、研究チームはコードの公開を予定しています。