LangChain、評価駆動でAIエージェント改善する手法を公開
詳細を読む
LangChainは2026年4月8日、AIエージェントの「ハーネス」(プロンプトやツール構成)を評価データに基づいて自律的に改善するフレームワーク「Better-Harness」を公開しました。機械学習における訓練データがモデルの重みを更新するように、評価ケースがハーネスの改善方向を示すという考え方に基づいています。
評価データの収集は3つの経路で行います。チームが手動で作成する高品質な例、本番環境のエージェントトレースから抽出する失敗ケース、そして外部データセットの活用です。各評価には「ツール選択」「多段推論」などの行動カテゴリタグを付与し、必要なサブセットだけを実行できるようにしています。社内でのドッグフーディングとSlackでのフィードバック共有も重要な情報源となっています。
過学習への対策として、評価データを最適化用とホールドアウト用に分割する設計を採用しています。最適化ループでは1回につき1つの変更に絞り、トレースから失敗原因を診断したうえで、既存の合格ケースに退行が起きていないかを確認します。さらに人間によるレビューを加え、トークンの無駄遣いや過学習的な指示を排除しています。
実験ではClaude Sonnet 4.6とZ.aiのGLM-5を対象に、ツール選択とフォローアップ品質の2カテゴリで検証しました。両モデルともホールドアウト集合でほぼ完全な汎化を達成しています。発見された改善例としては、「合理的なデフォルト値を使用する」「ユーザーが既に提供した情報を再度尋ねない」といった汎用的な指示の追加があります。
今後の方向性として、本番トレースからの自動的なエラー検出と評価ケース生成を目指しています。利用が増えるほどトレースが蓄積され、評価が充実し、ハーネスが改善されるというフライホイール効果を狙っています。研究版のコードはGitHubでオープンソースとして公開されており、開発者が自らのエージェントで実験できるようになっています。