LangChain、AIエージェント改善に人間判断を組み込む手法

暗黙知の取り込み

暗黙知を設計に反映
ツール設計で柔軟性と安全性両立

評価の自動化

人手レビューより自動評価優先
LLM-as-a-judgeで本番監視
アノテーションで専門家活用

継続改善の回し方

本番データを次のテスト集に
ゴールデンデータで品質維持
詳細を読む

LangChainは2026年4月9日、AIエージェントを継続的に改善するための人間判断の組み込み方を解説する技術ガイドを公開しました。社内に眠る暗黙知をどう吸い上げ、ワークフロー設計やツール定義、コンテキスト構築に反映するかを、金融トレーダー向けコパイロットを架空の題材として段階的に示した内容です。エージェントの実装前後で専門家をどう巻き込むかに焦点を当てています。

記事はまず、エージェントが優れた成果を出すには、文書化された知識だけでなく従業員の頭の中にあるタシットナレッジが不可欠だと指摘します。架空のトレーダー向けコパイロットでは、「本日のエクスポージャー」など業界独自の言い回しや、どのテーブルが正となるかといった実務知識を把握しなければ、SQL生成の自動化は成立しないといいます。こうした暗黙知を引き出すには、関連する業務部門との対話を避けて通れないとしています。

エージェント構築では、ワークフロー設計・ツール設計・コンテキスト設計の3要素それぞれに人間の判断が必要だと整理します。リスクコンプライアンスが関わる処理はコードで厳格に制御し、ツールは汎用SQL実行と定型クエリを使い分けて柔軟性と安全性を両立させます。さらに、ドキュメントや事例を事前に整えて実行時に取得させる「コンテキストエンジニアリング」が、最近の主流だと位置付けています。

改善サイクルで鍵になるのが、人手レビューに頼らず自動評価と人間判断を整合させる考え方です。LangChainは自社のLangSmithが備えるAlign Evaluator機能を使えば、専門家のフィードバックをもとにLLM-as-a-judge型の評価器を調整できると説明します。開発段階では少数のデータセットから出発し、手動テストで得た興味深い事例を継続的に追加することで、評価スイートを自然に拡充できるとしています。

本番稼働後は、トレースを全て収集した上でオンライン評価とアラート、アノテーションキューを組み合わせる運用が推奨されています。負のスコアが出た会話は自動で専門家に回し、評価器自体の調整にもつなげます。さらに、トレースデータから会話パターンを自動抽出する「Insights Agent」を活用すれば、想定外の利用シーンを発見しやすくなるといいます。

最終段階では、本番データを精選して次世代テストスイートとゴールデンデータセットを整備し、次バージョンの品質基準とします。LangChainは「ヒトの専門性が『良い』の定義を与え、自動評価がそれを大規模に適用する」と総括し、この反復こそがビジネス価値を生むエージェントを育てる唯一の道だと結んでいます。