AI最適化Arbor、Codexら2.5倍上回る

性能の成果

検証可能な改善が2.5倍以上
検索精度45%→67%
既存エージェント50%台で停滞
MLE-Bench Liteで最高成績

仕組み

仮説を木構造で蓄積学習
司令役と実行役の役割分離
テスト合格時のみ統合するマージゲート
詳細を読む

中国人民大学とMicrosoft Researchの研究者は、AIシステムの自律最適化を担う新フレームワークArborを発表しました。試行錯誤の繰り返しを、過去の失敗から学んで改善を積み上げる累積的な学習プロセスへと引き上げる狙いです。実環境のエンジニアリング課題で、同じ計算資源のもとCodexClaude Codeの2.5倍以上の検証可能な性能向上を実現しました。

従来のコーディングAIは各試行を独立して扱い、得た知見が会話履歴に埋もれて失われる弱点がありました。タスクが数百ターンに及ぶと文脈の上限を超え、初期の失敗で行き詰まるか、評価のぶれに振り回されてしまいます。複数の研究方針を同時に保持し比較する仕組みも欠いていました。

Arborは戦略立案と実装作業を分けて解決します。コーディネーターと呼ぶ司令役が仮説と方針を管理し、自身はコードを直接編集しません。実際の実装と評価は短命のエグゼキューターが担い、独立したgitワークツリー上で一つの仮説だけを検証して結果を報告します。

中核となるのが仮説ツリー精緻化(HTR)です。仮説・成果物・事実証拠・抽出した洞察を結びつけた節点を枝分かれさせ、失敗した実験は負の制約として記録します。これにより同じ誤りの反復を防ぎ、複数の競合する方針を安全に並行探索できます。

過剰適合を防ぐため、HTRは厳格なマージゲートを設けます。開発スコアが高くても、別の評価データで実際に改善が確認できなければ統合しません。検索エージェント課題では精度を45.33%から67.67%へ高め、50%台で止まったCodexClaude Codeを大きく上回りました。

企業のAI活用では、複雑な実システムの継続的改善を自動化できる点が直接の価値となります。あなたの開発チームが抱える最適化のボトルネックも、こうした構造化された記憶を持つ手法で解きほぐせるかもしれません。