LangSmith、AIエージェントの本番監視・評価を強化

利用状況を自動で可視化

膨大な利用ログを自動分類
ユーザーの意図をパターン化
失敗原因の特定を支援

対話全体の成否を評価

複数回のやり取り全体を評価
ユーザー目的の達成度を測定
LLMによる自動スコアリング
詳細を読む

LangChain社が、LLMアプリ開発基盤「LangSmith」にAIエージェントの監視・評価を強化する新機能を追加しました。2025年10月23日に発表された「Insights Agent」と「Multi-turn Evals」です。これにより開発者は、本番環境でのユーザーの利用実態を深く理解し、エージェントの品質向上を加速できます。

AIエージェントが本番投入される事例が増える一方、その品質評価は大きな課題でした。従来の監視手法では、単なる稼働状況しか分からず、エージェントが「ユーザーの真の目的」を達成できたかまでは把握困難でした。膨大な対話ログの全てに目を通すのは非現実的です。

新機能「Insights Agent」は、この課題に応えます。本番環境の膨大な利用ログをAIが自動で分析し、共通の利用パターンや失敗モードを抽出。「ユーザーは何を求めているか」「どこで対話が失敗しているのか」をデータに基づき把握でき、改善の優先順位付けが格段に容易になります。

もう一つの新機能「Multi-turn Evals」は、複数回のやり取りからなる対話全体を評価します。個々の応答の正しさだけでなく、一連の対話を通じてユーザーの最終目的が達成されたかを測定。LLMを評価者として活用し、対話の成否を自動でスコアリングできるのが特徴です。

これら2つの機能を組み合わせることで、開発サイクルは劇的に変わるでしょう。「Insights Agent」で"何が起きているか"を把握し、「Multi-turn Evals」で"それが成功か"を測定する。この本番データに基づいた高速な改善ループこそが、信頼性の高いエージェントを構築する鍵となります。

LangChain社は、エージェント開発における「本番投入後の改善」という重要課題に正面から取り組みました。今回の新機能は、開発者実世界のデータから学び、迅速に製品を改良するための強力な武器となるでしょう。今後の機能拡充にも期待が高まります。