LangSmithに関する最新ニュース（29件） | 【AI Times】生成AIやLLMの最新情報・ニュース

LangSmith Engineがエージェント障害修正を自動化

2026年05月18日 Google OpenAI Anthropic LangChain Claude ワークフローコンプライアンスデバッグエージェント LangSmith

自動修正の仕組み

本番トレースから障害を自動検出

コードベースを読み根本原因を特定

修正PRを自動生成し回帰防止も提案

人間は承認ステップのみ介入

マルチモデル時代の課題

大手3社が自社に評価機能を統合中

複数モデル併用企業は統一監査が困難

中立的な第三者観測レイヤーに根強い需要

長期的な品質基盤になれるかが焦点

詳細を見る

LangChainの監視・評価プラットフォームLangSmithが、新機能「LangSmith Engine」をパブリックベータとして公開しました。AIエージェントの本番環境で発生した障害を検出し、根本原因の診断からコード修正の起案、回帰テストの提案までを一連の自動パスで実行します。従来のエージェント開発サイクルでは、トレース確認で不良パターンを見落としたり、エラーの繰り返しを把握しきれない問題がありました。

LangSmith Engineは本番トレースを常時監視し、明示的エラー、オンライン評価の失敗、トレースの異常、ユーザーからの否定的フィードバックなど複数のシグナルを横断的に捕捉します。問題を検出するとライブコードベースを読み込み、原因箇所を特定してプルリクエストを作成します。さらに同種の障害を再発防止するためのカスタム評価器も提案し、人間が関与するのは最終承認のみです。

一方、Anthropic、OpenAI、Googleの大手3社はいずれも観測・評価機能を自社プラットフォームに統合する動きを加速させています。AnthropicのClaude Managed AgentsやOpenAIのFrontierがエージェントの構築から評価までを一気通貫で提供しており、LangSmith Engineにとっては競争環境が厳しさを増しています。

しかし実務の現場では、複数のモデルプロバイダーを併用する「マルチモデル」運用がすでに標準になっているとの指摘があります。あるファンドではClaudeとGPTを別々のワークフローで運用しており、各プロバイダーの観測ツールが分断されると統一的な監査証跡を作成できません。コンプライアンスやガバナンスの観点から、プロバイダー横断で機能する中立的な観測レイヤーの需要は根強いとされています。

LangSmith Engineが市場で存在感を示すには、短期的なデバッグ支援にとどまらず、モデル横断の品質・信頼性を担保する運用基盤としての地位を確立できるかが問われます。エージェントの本番運用が拡大する中、障害対応の自動化と中立的な第三者評価という二つの価値をどこまで訴求できるかが今後の焦点です。

出典：VentureBeat

LangChain、AIエージェント改善に人間判断を組み込む手法

2026年04月09日 LangChain ワークフローエンジニア専門家リスクコンプライアンスエージェントコンテキスト LangSmith

暗黙知の取り込み

暗黙知を設計に反映

ワークフロー定義に専門家関与

ツール設計で柔軟性と安全性両立

評価の自動化

人手レビューより自動評価優先

LLM-as-a-judgeで本番監視

アノテーションで専門家活用

継続改善の回し方

本番データを次のテスト集に

ゴールデンデータで品質維持

詳細を見る

LangChainは2026年4月9日、AIエージェントを継続的に改善するための人間判断の組み込み方を解説する技術ガイドを公開しました。社内に眠る暗黙知をどう吸い上げ、ワークフロー設計やツール定義、コンテキスト構築に反映するかを、金融トレーダー向けコパイロットを架空の題材として段階的に示した内容です。エージェントの実装前後で専門家をどう巻き込むかに焦点を当てています。

記事はまず、エージェントが優れた成果を出すには、文書化された知識だけでなく従業員の頭の中にあるタシットナレッジが不可欠だと指摘します。架空のトレーダー向けコパイロットでは、「本日のエクスポージャー」など業界独自の言い回しや、どのテーブルが正となるかといった実務知識を把握しなければ、SQL生成の自動化は成立しないといいます。こうした暗黙知を引き出すには、関連する業務部門との対話を避けて通れないとしています。

エージェント構築では、ワークフロー設計・ツール設計・コンテキスト設計の3要素それぞれに人間の判断が必要だと整理します。リスクやコンプライアンスが関わる処理はコードで厳格に制御し、ツールは汎用SQL実行と定型クエリを使い分けて柔軟性と安全性を両立させます。さらに、ドキュメントや事例を事前に整えて実行時に取得させる「コンテキストエンジニアリング」が、最近の主流だと位置付けています。

改善サイクルで鍵になるのが、人手レビューに頼らず自動評価と人間判断を整合させる考え方です。LangChainは自社のLangSmithが備えるAlign Evaluator機能を使えば、専門家のフィードバックをもとにLLM-as-a-judge型の評価器を調整できると説明します。開発段階では少数のデータセットから出発し、手動テストで得た興味深い事例を継続的に追加することで、評価スイートを自然に拡充できるとしています。

本番稼働後は、トレースを全て収集した上でオンライン評価とアラート、アノテーションキューを組み合わせる運用が推奨されています。負のスコアが出た会話は自動で専門家に回し、評価器自体の調整にもつなげます。さらに、トレースデータから会話パターンを自動抽出する「Insights Agent」を活用すれば、想定外の利用シーンを発見しやすくなるといいます。

最終段階では、本番データを精選して次世代テストスイートとゴールデンデータセットを整備し、次バージョンの品質基準とします。LangChainは「ヒトの専門性が『良い』の定義を与え、自動評価がそれを大規模に適用する」と総括し、この反復こそがビジネス価値を生むエージェントを育てる唯一の道だと結んでいます。

出典：blog.langchain.com

LangChain、Claude対抗のOSSエージェント公開

2026年04月09日 Google OpenAI Anthropic LangChain Claude Llama エージェント MCP Ollama LangSmith

単一コマンド展開

単一コマンドで本番展開

LangSmith基盤に30超のAPI

MCP・A2A・HITLを標準装備

セッション毎にサンドボックス

モデル非依存設計

OpenAI等主要9社対応

AGENTS.md等公開規格採用

自己ホスト可で記憶を自社保持

詳細を見る

LangChainは2026年4月9日、モデル非依存の開放型エージェント運用基盤「Deep Agents Deploy」のベータ提供を開始しました。Anthropicが先行投入した「Claude Managed Agents」への直接的な対抗策と位置づけ、ベンダーロックインを避けたい企業の本番導入を単一コマンドで実現するのが狙いです。

最大の特徴はdeepagents deployコマンド一発で、オーケストレーション、サンドボックス起動、エンドポイント整備までを一括で済ませられる点です。内部的にはLangSmith Deployment上にマルチテナント構成のサーバーを立ち上げ、MCPやA2A、Agent Protocol、Human-in-the-loop、メモリAPIなど30を超える端点を自動で提供します。

モデル選定も開放的で、OpenAI、Google、Anthropic、Azure、Bedrock、Fireworks、Baseten、OpenRouter、Ollamaに対応し、オープンモデルの採用も可能です。指示書はAGENTS.md、専門知識はAgent Skillsという公開規格を採用し、ツール接続はMCP経由に統一することで、将来的な基盤乗り換えコストを抑えています。

LangChainが強調するのは「ハーネス＝記憶」という構造的論点です。クローズドAPIに短期・長期記憶が閉じ込められると、モデルを差し替えるだけで蓄積した顧客データが失われかねず、データフライホイールが崩れると警鐘を鳴らします。Deep Agents Deployは記憶を標準フォーマットでファイル保存し、APIで直接参照できる点を差別化の核に据えました。

Claude Managed Agentsとアーキテクチャ自体はハーネス、エージェントサーバー、サンドボックスの三層で共通しますが、LangChainは後者をウォールドガーデンと批判します。自己ホスト運用によって記憶を自社データベース内に保持できる柔軟性は、規制産業や大企業の要件にも合致します。エージェント運用基盤の主戦場は、モデル性能からハーネスと記憶の主権争いへと移りつつあります。

出典：blog.langchain.com

LangChainとMongoDBがAIエージェント基盤で戦略提携

2026年03月31日 LangChain AWS 検索インフラクラウドセキュリティコンプライアンスデプロイデバッグ医療提携エージェント LangSmith RAG

統合プラットフォームの全容

Atlas上でベクトル検索・状態管理を一元化

自然言語からMongoDB問い合わせを自動生成

LangSmithでエージェント全工程を可視化

導入企業の活用事例

Kai Securityが1日で本番運用を実現

Fortune 500企業が金融・医療分野で採用

コンプライアンスや顧客対応を自動化

オープンな設計思想

LLMプロバイダー・クラウドを自由に選択可能

LangGraph等の主要コンポーネントはOSS公開

詳細を見る

LangChainとMongoDBは2026年3月、AIエージェントの開発から本番運用までを単一プラットフォームで完結させる戦略的パートナーシップを発表しました。6万5000社以上が利用するMongoDB Atlas上にエージェント基盤を構築する統合ソリューションです。

統合の中核は、Atlas Vector SearchによるRAG（検索拡張生成）の実装です。セマンティック検索、ハイブリッド検索、GraphRAGを単一のMongoDBデプロイメントから実行でき、ベクトルデータと業務データを同じ基盤で管理するため、同期処理や二重管理の負担がなくなります。

MongoDB Checkpointerはエージェントの状態をMongoDBに永続化する仕組みで、会話履歴の保持、障害からの自動復旧、任意時点への巻き戻しデバッグが可能です。LangSmithのデプロイメント環境で設定するだけで、アプリケーションデータと同じデータベースにエージェントの状態が保存されます。

Text-to-MQL機能では、自然言語をMongoDBクエリ言語に自動変換し、エージェントが業務データに直接アクセスできます。「過去30日間の配送遅延注文を表示」といった質問を、カスタムAPIなしで処理できるため、開発工数を大幅に削減できます。

サイバーセキュリティ企業のKai Securityは、この統合により1日で本番デプロイを達成しました。従来は別途データベース層の構築に1カ月を要していた作業が、既存のMongoDB基盤上で一時停止・再開、障害復旧、監査証跡を即座に実装できたとしています。

LangChain CEOのHarrison Chase氏は「MongoDBの顧客はプロトタイプから本番エージェントまで、既存インフラを離れずに完結できる」と述べています。全統合機能は即日利用可能で、AWS・Azure・GCPのマルチクラウドに対応し、主要コンポーネントはオープンソースとして公開されています。

出典：blog.langchain.com

LangChainがエージェント基盤カスタマイズ用ミドルウェア機構を公開

2026年03月26日 LangChain エンジニアコンプライアンス品質保証エージェントコンテキストベンチマーク LangSmith

ミドルウェアの仕組み

フックでループ各段階に介入

PII除去やコンプライアンスを確実適用

実行時にツールやモデルを動的切替

コンテキスト要約でトークン超過防止

Deep Agentsの評価手法

行動単位の標的型evalを重視

正確性・効率性・遅延の多軸計測

理想軌道との比較で無駄なステップ検出

pytestとCI連携で再現性確保

詳細を見る

LangChainは、AIエージェントの中核ループをカスタマイズできる「AgentMiddleware」機構を公開しました。モデル呼び出しの前後やツール実行時にフックを挿入し、業務固有のロジックを組み込めます。

ミドルウェアはコンポーザブル設計で、PII検出・動的ツール選択・コンテキスト要約・リトライ制御など主要パターンが標準搭載されています。開発者はAgentMiddlewareクラスを継承し、独自のビジネスロジックも追加できます。

同社のDeep Agentsはこのミドルウェア基盤上に構築されたオープンソースのエージェントハーネスです。ファイルシステム管理・サブエージェント・要約・スキル開示など複数のミドルウェアを組み合わせ、本番運用に耐える構成を実現しています。

Deep Agentsの品質管理では、大量のベンチマークを闇雲に追加するのではなく、本番で重要な行動を特定し、それを検証可能な形で計測する標的型evalを設計しています。正確性に加え、ステップ比率・ツール呼び出し比率・遅延比率・解決速度の多軸で効率性も評価します。

評価データは自社のドッグフーディングやTerminal Bench・BFCLなど外部ベンチマークから厳選し、各evalにカテゴリタグと目的を明記しています。全実行トレースをLangSmithに記録することで、チーム全体での障害分析と継続的改善を可能にしています。

出典：blog.langchain.com | blog.langchain.com

LangChain、エージェント間で業務知識を共有する「スキル」機能を公開

2026年03月25日 LangChain Claude Claude Code Codex 推論コーディングエージェント Cursor LangSmith

スキルの概要と特徴

業務知識をエージェントに付与

作成方法と拡張性

AIとの対話から自動生成可能

テンプレートや手動作成にも対応

CLIでコード開発環境に連携

バージョン管理と権限拡張を予定

詳細を見る

LangChainは2026年3月、AIエージェント開発基盤LangSmith Fleetにおいて、エージェント間で業務知識を共有できる「スキル」機能を正式に公開しました。スキルとは、特定タスクに必要な手順やドメイン知識をまとめた指示セットです。

現在のAIエージェントは推論能力に優れる一方、業務固有の知識がなければ実用性に限界があります。たとえばサポートエージェントがSLAの優先度を知らなければ、すべての問い合わせを同一に扱ってしまいます。スキルはこの課題を解決する仕組みです。

スキルの作成方法は多彩で、AIとのチャットから自動生成する方法、エージェント作成時の自動提案、テンプレートからの選択、手動記述の4通りが用意されています。作成したスキルはワークスペースに共有でき、チーム全員のエージェントが即座に利用可能になります。

特筆すべきはポータビリティの高さです。LangSmith CLIを使えば、Fleet上のスキルをローカル開発環境にダウンロードし、Claude CodeやCursor、Codexなど任意のコーディングエージェントにそのまま連携できます。知識の再記述やコピーは不要です。

今後の機能拡張として、スキルのバージョン固定とロールバック、および複数オーナーによる共同編集権限の追加が予定されています。エージェントが高度な業務を担うほど、指示の質が成果を左右するとLangChainは強調しています。

出典：blog.langchain.com

Moda、AIデザインエージェントを本番投入し非デザイナー向け設計基盤を構築

2026年03月24日 LangChain PowerPoint デザインスライド創業者デザイナー推論コンテンツブランドエージェントプロンプトコンテキスト Cursor Canva LangSmith

マルチエージェント構成

3種のエージェントが協調動作

デザイン・リサーチ・ブランドの役割分担

Deep Agents基盤で構築

LangSmithで全実行をトレース

コンテキスト工学の工夫

独自DSLでレイアウト抽象化

トリアージでスキル動的注入

キャンバス規模に応じた文脈制御

UXと今後の展開

Cursor型サイドバーで対話的編集

B2B営業チーム向けにPMFを確認

詳細を見る

Modaは、マーケターや創業者などデザイン未経験者向けのAIネイティブデザインプラットフォームです。LangChain Deep Agentsを基盤としたマルチエージェントシステムにより、プレゼン資料やSNS投稿、PDFなどをプロ品質で自動生成する仕組みを本番環境で稼働させています。

システムの中核は、デザインエージェント、リサーチエージェント、ブランドキットエージェントの3つのエージェントで構成されています。リサーチエージェントは外部ソースから構造化コンテンツを取得し、ブランドキットエージェントはロゴやフォント、カラーなどのブランド資産を取り込み、一貫したデザインを実現します。

AIデザインの最大の課題は、PowerPointのXML仕様のようなXY座標ベースの表現がLLMの推論に不向きな点です。Modaは独自のコンテキスト表現レイヤーを開発し、HTMLのFlexboxのようなレイアウト抽象化をLLMに提供することで、トークンコストを削減しつつ出力品質を大幅に向上させました。

各リクエストはまず軽量なトリアージノードで分類され、適切なスキルが動的に注入されます。コアツールは12〜15個に抑え、追加の約30ツールは必要時のみ読み込む設計により、プロンプトキャッシュの効率を最大化しています。LangSmithによるノード単位のコスト追跡が、この最適化を可能にしました。

UX面では、生成と置換の一方通行ではなく、完全に編集可能な2Dベクターキャンバス上でAIが直接操作する設計を採用しています。Cursor風のサイドバーで反復的な対話を行い、ユーザーとAIが協調してデザインを仕上げます。B2B企業の営業チームを中心にプロダクトマーケットフィットを確認しており、今後はメモリ機能の統合やマルチブランド対応の拡張を予定しています。

出典：blog.langchain.com

LangSmith Fleetがエージェント認可を2種類に分類

2026年03月23日 LangChain Slack Notion OpenClaw データ漏洩認証エージェント LangSmith

2つの認可モデル

Assistant型はユーザー代理で動作

Claw型は固定資格情報を保持

専用アカウントでアクセス範囲を制御

チャネル連携でSlack等に展開可能

運用と今後の展望

Human-in-the-loopで危険操作を制御

メール応答エージェントはClaw型で運用

ユーザー別メモリ権限を今後導入

WorkOSと連携し認可を高度化

詳細を見る

LangChainは2026年3月にエージェント管理基盤「LangSmith Fleet」を正式リリースし、エージェントが外部ツールを利用する際の認可方式として「Assistant」と「Claw」の2種類を導入しました。

Assistant型はユーザーの代理として動作する方式です。たとえばオンボーディングエージェントがNotionやRipplingにアクセスする場合、操作者本人の資格情報を使用します。これによりAliceはBobの非公開情報にアクセスできず、適切なアクセス制御が実現されます。

一方のClaw型は、OpenClawの登場を契機に生まれた概念です。エージェント作成者が設定した固定の資格情報で動作するため、誰が利用しても同一の権限範囲となります。作成者個人の認証情報を使う代わりに、専用アカウントを作成してアクセス範囲を限定する運用が推奨されています。

実際の活用例として、オンボーディングエージェントはAssistant型でSlackとNotionに連携し、メール応答エージェントはClaw型でカレンダー確認やメール送信を実行します。Claw型では危険な操作に対してHuman-in-the-loopのガードレールを設けることが重要とされています。

今後の展開として、エージェント種別に応じたメモリ権限の細分化が計画されています。現在はアクセス権限ベースで管理していますが、将来的にはユーザー固有のメモリを導入し、Assistant型でAliceの機密情報がBobとの会話に漏洩しない仕組みを構築する方針です。

出典：blog.langchain.com

LangChain、エージェント群管理基盤「LangSmith Fleet」を公開

2026年03月19日 LangChain Slack 検索セキュリティ認証エージェント LangSmith

Fleet の主要機能

エージェント共有と3段階権限

認証情報の一元管理

Slack連携で個別ボット運用

全操作の監査トレース記録

企業向け管理体制

Inboxで承認を一元化

Claw型とAssistant型のIDモデル

OAuth対応のユーザー別認証

編集・実行・複製の権限制御

詳細を見る

LangChainは、企業向けAIエージェント管理基盤「LangSmith Fleet」を発表しました。複数のエージェントを組織全体で作成・共有・運用するためのワークスペースで、権限管理や認証、監査機能を備えています。

Fleet最大の特徴は、エージェントの共有モデルと権限管理です。個人またはワークスペース全体への共有が可能で、「複製可」「実行可」「編集可」の3段階の権限を設定できます。コアチームには編集権限、一般ユーザーには実行のみといった柔軟な運用が実現します。

エージェントの認証モデルには2種類があります。「Claw」型は共有サービスアカウントで全ユーザーが同一認証情報を使用し、「Assistant」型は各ユーザーがOAuthで個別認証します。用途に応じた使い分けにより、セキュリティと利便性を両立させています。

Slack連携では、各エージェントに専用のSlackボットを割り当てられます。@vendor-intakeや@weekly-sales-numbersのように個別ハンドルで呼び出せるため、チームメンバーはチャンネル上でエージェントにタスクを直接依頼できます。

企業運用に不可欠な監査機能も充実しています。全エージェントの操作を一元管理する「Inbox」で承認・却下が可能なほか、LangSmithのトレース機能により、どのエージェントが誰の代理でどのデータにアクセスしたかを完全に記録・検索できます。

出典：blog.langchain.com

LangSmith全機能にAIアシスタントPollyが正式対応

2026年03月18日 LangChain Windows 生産性アシスタントワークフローデバッグエージェントプロンプトコンテキスト LangSmith

Pollyの主な進化

全ページで利用可能に

会話コンテキストの永続化

プロンプト修正等の実行操作対応

評価コード自動生成機能

デバッグ支援の強化

300ステップのトレース解析

スレッド全体の感情分析

実験結果の比較と推奨提示

ページ横断での文脈維持

詳細を見る

LangChainは、LLMアプリ開発プラットフォームLangSmithに搭載するAIアシスタント「Polly」の一般提供を開始しました。従来は一部ページに限定されていた機能が、全ページ・全ワークフローで利用可能になっています。

Pollyの最大の特長は、数百ステップに及ぶトレースを自動的に読み解き、障害の原因箇所を特定できる点です。エージェント開発特有の複雑なデバッグ作業において、従来は人手で追跡していた長大なログ解析をAIが代行します。

今回の更新ではページ間のコンテキスト維持が実現しました。トレースの確認から実験の比較、データセットへの追加、プロンプトの修正まで、一連のワークフローを通じてPollyが文脈を保持し続けるため、作業の中断や再説明が不要になります。

さらにPollyは質問への回答だけでなく、プロンプトの更新、失敗した実行からのデータセット作成、評価コードの生成といった実行操作にも対応しました。スレッド全体のユーザー感情分析や、実験結果に基づく最適な構成の推奨も可能です。

利用にはLangSmithアカウントとモデルプロバイダーのAPIキー設定が必要です。Cmd+I（Mac）またはCtrl+I（Windows/Linux）で任意のページから即座に起動でき、エージェント開発チームの生産性向上が期待されます。

出典：blog.langchain.com

LangChainがエージェント向け安全なコード実行環境を公開

2026年03月17日 LangChain ネットワークリスクハードウェアセキュリティ認証コーディングエージェント LangSmith

Sandboxesの概要

LangSmith SDKから1行で起動

microVMによるカーネル級隔離

Docker独自イメージの持ち込み対応

プール事前確保でコールドスタート回避

主要機能と安全設計

認証プロキシで秘密情報を隔離

長時間セッションとWebSocket配信

複数エージェントの共有アクセス対応

Python・JavaScript両SDK対応

詳細を見る

LangChainは、AIエージェントが安全にコードを実行できるサンドボックス環境「LangSmith Sandboxes」をプライベートプレビューとして公開しました。エージェントによる任意コード実行のリスクを軽減する目的で開発されています。

従来のコンテナは既知のアプリケーションコード向けに設計されており、エージェントが生成する予測不能なコードの実行には適していませんでした。LangSmith Sandboxesは各サンドボックスをハードウェア仮想化されたmicroVMで隔離し、Linuxの名前空間だけに頼らないカーネルレベルの保護を提供します。

セキュリティ面では認証プロキシを介して外部サービスに接続する仕組みを採用し、認証情報がサンドボックス内に一切残らない設計です。CPU・メモリ・ディスクのリソース制限も組み込まれており、エージェントの暴走を防止します。

実行機能としては、長時間タスクのタイムアウトなし動作、WebSocketによるリアルタイム出力ストリーミング、複数スレッドにまたがる永続的な状態保持に対応します。また、ウォームプールの事前確保とオートスケーリングにより、需要増加時にも待ち時間を最小化します。

今後は共有ボリュームによるエージェント間の状態共有、実行可能バイナリの制御、仮想マシン内の全プロセス・ネットワーク呼び出しの完全トレーシング機能を開発予定です。同社のOpen SWEプロジェクトでも内部利用されており、コーディングエージェント構築の基盤として位置づけられています。

出典：blog.langchain.com

LangChain、エージェント一発デプロイCLIを公開

2026年03月16日 GitHub LangChain ワークフローエンジニアインフラデプロイ CI/CD エージェント LangSmith

deploy CLIの主要機能

langgraph deployで即時デプロイ

Docker構築からインフラ自動構成まで一貫

Postgres・Redisも自動セットアップ

CI/CDパイプラインへの組み込みに対応

管理コマンドと開発支援

デプロイ一覧・ログ確認・削除を完備

uvx経由で即座に利用可能

deep agent・simple agentテンプレート提供

詳細を見る

LangChainは、langgraph-cliパッケージに新たなdeploy CLIコマンド群を追加し、コマンドライン一つでAIエージェントをLangSmith Deploymentへデプロイできる機能を公開しました。

中核となるlanggraph deployコマンドは、ローカルのLangGraphプロジェクトからDockerイメージを自動構築し、本番運用に必要なインフラを一括で構成します。手動でのサーバー設定が不要になり、開発者の負担を大幅に軽減します。

インフラ面では、永続化のためのPostgreSQLとメッセージストリーミング用のRedisが自動的にセットアップされます。これにより、エージェントは追加設定なしに本番環境で安定稼働できます。

GitHub ActionsやGitLab CI、Bitbucket Pipelinesなど既存のCI/CD ワークフローとの統合も容易です。デプロイの一覧表示、ログ確認、削除といった管理コマンドも同時に提供されています。

開発者向けにはdeep agentとsimple agentの新テンプレートも公開されており、langgraph newコマンドで雛形を生成できます。uvxを使えばインストール不要で即座に試用が可能です。

出典：blog.langchain.com

LangChainとNVIDIAがエージェントAI開発基盤で包括提携

2026年03月16日 NVIDIA LangChain 推論 GPU インフラデプロイ医療提携エージェント LangSmith

統合プラットフォームの全容

LangGraphとNIM統合で本番運用

NeMo Agent Toolkitとの連携

推論レイテンシの自動最適化機能

NIMで最大2.6倍のスループット向上

評価・監視と今後の展開

LangSmithで150億トレース処理実績

Nemotronモデル群での横断評価

LangChainがNemotron Coalition参加

GPU環境でのDeep Agents実行構想

詳細を見る

LangChainは2026年3月16日、NVIDIAとの包括的な統合を発表し、企業向けエージェントAI開発プラットフォームを提供すると明らかにしました。累計ダウンロード数10億回を超える同社のオープンソースフレームワーク群と、NVIDIAのAIツールキットを組み合わせた構成です。

プラットフォームはLangGraphによるマルチエージェントのオーケストレーション、Deep Agentsによるタスク計画とサブエージェント生成、そしてNVIDIA AI-Q Blueprintによるディープリサーチ機能を備えます。NeMo Agent Toolkitにより既存のLangGraphエージェントを最小限のコード変更で導入できます。

実行面ではNIMマイクロサービスが標準デプロイ比で最大2.6倍のスループットを実現します。Nemotron 3 SuperのMoEアーキテクチャにより単一GPUでのコスト効率の高い展開が可能です。並列実行や投機的実行によるレイテンシ削減も自動的に適用されます。

監視面ではLangSmithが150億トレース・100兆トークンの処理実績を持ち、分散トレーシングやコスト監視を提供します。NeMo Agent Toolkitのテレメトリと統合することで、インフラレベルとアプリケーションレベルの可観測性を一元化できます。

さらにLangChainはNVIDIAのNemotron Coalitionに参画し、オープンなフロンティアモデルの共同開発に取り組みます。将来的にはDeep AgentsがCUDA-Xライブラリを活用したGPUアクセラレーション環境で動作し、金融や医療分野での大規模データ処理を可能にする構想も示されました。

出典：blog.langchain.com

LangChainがGTMエージェントで商談転換率250%向上を達成

2026年03月09日 LangChain Salesforce Slack エンジニア推論リスクエージェント Gmail LangSmith

主な成果

商談転換率が250%向上

パイプライン収益が3倍に拡大

営業担当者が月40時間を回収

低意図リードへのフォロー97%増

週次アクティブ利用率86%達成

技術構成

Deep Agentsで長期マルチステップ処理

Salesforce・Gong・LinkedInを自動連携

LangSmithで全行動をトレース記録

担当者編集から自動学習するメモリ機構

サブエージェントを並列実行でスケール対応

詳細を見る

LangChainは2025年12月から2026年3月にかけて、営業チーム向けGTMエージェントを自社開発・運用し、リードから有望商談への転換率を250%向上させ、パイプライン収益を3倍に拡大した成果を公表しました。

このエージェントはSalesforceに新リードが登録されると自動起動し、サポートチケットの有無や直近の接触履歴を確認してから、Gongの通話記録やLinkedInプロフィール、Exaによるウェブ調査を組み合わせてパーソナライズされたメール下書きを生成します。

担当者はSlack上で下書きの内容とエージェントの推論根拠を確認し、送信・編集・キャンセルを選択できる仕組みで、ヒューマン・イン・ザ・ループを徹底することで誤送信リスクを排除しています。

担当者がSlackで下書きを編集すると、LLMが変更差分を解析してスタイル上の傾向を抽出し、PostgreSQLにレップごとに記録します。次回以降の下書きはこの個人メモリを参照して自動改善されます。

GTMエージェントはSDR向けとして始まりましたが、Salesforce・Gong・BigQuery・Gmailへのアクセスを持つ点が口コミで広まり、エンジニアやカスタマーサクセスなど社内各チームが想定外の用途で自発的に活用を始めており、組織横断的なAIエージェント活用の好例となっています。

出典：blog.langchain.com

LangChain、コーディングエージェント向けスキル評価手法を公開

2026年03月05日 LangChain Claude Claude Code Codex ワークフローコーディングエージェントプロンプト LangSmith

評価パイプラインの要点

Dockerで再現性ある環境構築

制約付きタスクで採点精度向上

バグ修正型タスクが検証に有効

スキル有無で完了率を比較

スキル設計の知見

XMLタグでモジュール化推奨

AGENTS.mdで確実な呼び出し実現

スキル数は12以下で正確に選択

LangSmithで軌跡を可視化

詳細を見る

LangChainは2026年3月、Claude CodeやCodexなどのコーディングエージェントに与える「スキル」の評価手法とベストプラクティスをブログで公開しました。スキルとは、特定領域でエージェントの性能を高めるための指示・スクリプト・リソースの集合体です。

評価パイプラインの基本は、タスクを定義し、スキルの有無でエージェントの成績を比較する手法です。テスト環境には軽量なDockerコンテナを用い、ディレクトリの初期状態を統一することで再現性を確保しています。

タスク設計では、オープンエンドな課題よりもバグ修正型の制約付きタスクが有効であると報告されています。採点が容易になるだけでなく、エージェントの設計空間を適切に限定できるためです。評価指標には、スキルの呼び出し有無、タスク完了率、ターン数、実行時間などを採用しています。

スキル設計においては、AGENTS.mdやCLAUDE.mdにスキルの使用方法を記載することで呼び出し率が安定しました。スキルを単独でプロンプト任せにした場合の呼び出し率は最大70%にとどまる一方、事前読み込みファイルに案内を記載すると一貫した呼び出しが実現できたと報告されています。

実験の結果、スキルを搭載したClaude Codeのタスク完了率は82%に達した一方、スキルなしでは9%に低下しました。LangSmithのトレース機能でエージェントの全行動を記録・分析し、失敗原因の特定とスキル内容の反復改善を高速に回すワークフローが紹介されています。

出典：blog.langchain.com

LangChain、AIエージェント開発向けSkills機能を公開

2026年03月04日 LangChain Claude Claude Code コーディングエージェント LangSmith

Skills機能の概要

動的読み込みで性能劣化を回避

Claude Codeの正答率が29%→95%に

LangSmith用も17%→92%に向上

LangSmith新機能

Agent Builderに統合チャット追加

トレース表示のカスタム設定が可能に

Insights Agentで定期レポート自動化

実験のベースライン固定で差分比較

エージェント運用の知見

ハーネス工学でベンチTop5達成

本番監視の専用手法を体系化

詳細を見る

LangChainは2026年2月、AIコーディングエージェントの専門性を高める「Skills」機能を公開しました。LangChain、LangGraph、Deep Agentsの3カテゴリ計11スキルを提供し、エージェント開発の精度を大幅に向上させます。

Skillsはマークダウンファイルとスクリプトで構成される携帯可能な指示セットです。タスクに関連する場合のみ動的に読み込む「プログレッシブ・ディスクロージャー」方式を採用し、ツール過多による性能劣化の問題を解決しています。

評価セットでは、Skills導入によりClaude CodeのLangChainタスク正答率が29%から95%へ、LangSmithタスクでは17%から92%へと劇的に改善しました。npx skillsコマンドで簡単にインストールでき、プロジェクト単位またはグローバルに設定可能です。

同時にリリースされたLangSmith CLIは、エージェントネイティブな設計思想で構築されています。トレース取得、データセット管理、実験実行をターミナルから完結でき、エージェントによる改善ループの自動化を実現します。

LangSmithプラットフォームでも複数の新機能が追加されました。Agent Builderの統合チャット、ファイルアップロード対応、トレーステーブルの入出力カスタマイズ、Insights Agentによる定期レポートなど、本番運用を見据えた機能強化が進んでいます。

技術ブログでは、コーディングエージェントがモデル変更なしでTerminal Bench 2.0のTop30からTop5へ躍進した事例も紹介されました。自己検証ループやループ検知ミドルウェアなどの「ハーネス工学」が成功の鍵とされています。

出典：blog.langchain.com | blog.langchain.com | blog.langchain.com

エージェント本番運用をLangChainが解説

2026年02月22日 LangChain プライバシーコンプライアンスデバッグエージェント LangSmith ノーコード

エージェント可観測性と評価

エージェントは実行するまで何をするか不明という根本的特性

LangChainがトレースをエージェント評価の中核に位置づけ

ソフトウェア可観測性とは質的に異なるエージェント監視の必要性

LangSmithのエージェント評価フレームワークの詳細を初公開

複雑タスクの評価困難性をトレースで克服するアプローチ

メモリシステムと監査ループ

Agent Builderのメモリシステムはノーコードで実装済み

シャドウモードで本番前にエージェントを並行テスト

ドリフトアラートでモデル挙動の変化を自動検知

監査ログがコンプライアンス・デバッグの要に

スタティックコンプライアンスからリアルタイム監視へ

詳細を見る

2026年2月22日、LangChainは三つの重要なブログ記事を通じて、AIエージェントの本番運用に向けた包括的なフレームワークを公開しました。これらの記事は、AIエージェントが単なる実験から本番システムへと移行する際に直面する核心的な課題に答えるものです。

エージェント可観測性の記事では、AIエージェントが実行されるまでその行動を予測できないという根本的な特性を起点に、トレース（実行ログの詳細記録）をエージェント評価の基盤とするアプローチを詳述しています。従来のソフトウェア監視とは異なり、エージェントは開かれたタスクを実行するため、評価基準自体を動的に設計する必要があります。

Agent Builderのメモリシステムに関する記事では、ノーコードツールがどのようにして会話履歴、ユーザー設定、長期記憶を管理するかを技術的に詳説しています。メモリはエージェントの文脈理解と一貫性を確保する上で不可欠ですが、その設計にはプライバシーとストレージのトレードオフがあります。

VentureBeatの記事では、シャドウモード（新エージェントを本番システムと並行稼働させ比較するテスト手法）、ドリフトアラート（AIモデルの更新による挙動変化の自動検知）、監査ログ（コンプライアンス・デバッグ用の完全な実行記録）を組み合わせた「現代の監査ループ」を解説しています。

これら三つの記事が同日に公開されたことは偶然ではありません。AIエージェントを本番環境で安全・適法・信頼できる形で運用するためのエンタープライズMLOpsの成熟が急速に進んでいます。2026年はAIエージェントの「実験から本番」への転換年になるとの見方が強まっています。

出典：blog.langchain.com | blog.langchain.com | VentureBeat

monday.comがLangSmithでAI評価

2026年02月18日 LangChain LangSmith

LLMOpsの実践事例

LangSmithで評価基盤を構築

コードファーストのテスト戦略

CS業務でのAI精度向上

詳細を見る

monday.comはLangSmith（LangChain社の評価ツール）を用いて、コードファーストのAI評価戦略を構築した事例を公開しました。

この事例では、顧客サポート業務でのAIモデルの精度と信頼性を継続的に測定・改善するためのパイプラインが紹介されています。LLMOpsの実践として参考になる内容です。

出典：blog.langchain.com

エージェントフレームワークと可観測性が生産AIエージェントに不可欠

2026年02月13日デバッグエージェント LangSmith

フレームワーク設計の原則

エージェントフレームワークの選択が成否を左右

観測可能性（オブザーバビリティ）がデバッグに必須

本番AIエージェントの信頼性確保の実践方法

詳細を見る

エージェントAIの本番運用において、フレームワーク選択と観測可能性（オブザーバビリティ）の整備が重要であることを論じた分析記事です。プロダクション品質のエージェントに求められる要素を整理しています。

エージェントのオブザーバビリティとは、エージェントがいつ何を考え、何を決定し、何を実行したかの完全なトレースを記録・可視化することです。これなしに複雑なエージェントのデバッグは困難です。

LangSmith、LangFuse、Phoenix（Arize）などのエージェント監視ツールの役割が今後さらに重要になる中、AI運用チームがどのようなスタックを構築すべきかへの示唆が含まれています。

出典：blog.langchain.com

LangSmith、GCPマーケットプレイスに登場

2026年02月10日 Google LangChain エコシステムエンジニアクラウド品質保証デバッグ開発ツールエージェント LangSmith

提供内容

エージェント運用基盤

GCP課金で簡単導入

既存契約での利用が可能

意義と展望

LLMOpsの導入障壁低下

エンタープライズ採用を促進

LangChainのエコ系拡大

詳細を見る

LangChainのエージェントエンジニアリングプラットフォーム「LangSmith」がGoogle Cloud Marketplaceで利用可能になりました。

Google Cloudの既存アカウントで調達できるため、請求の一元化や導入手続きの簡素化が実現します。企業での採用障壁が大幅に下がります。

LangSmithはAIエージェントの評価、トレース、デバッグを行う運用基盤です。LLMアプリケーションの品質管理に不可欠なツールとなっています。

クラウドマーケットプレイスでの提供はエンタープライズ顧客の調達プロセスに合致しており、大企業での導入が加速する見込みです。

LangChainエコシステムの拡大は、AIエージェント開発ツール市場における同社のリーダーポジションを強化するものです。

出典：blog.langchain.com

AIエージェントの行動をトレースで解析、大規模運用の知見を公開

2026年01月20日インフラ品質保証デバッグエージェント LangSmith

トレースベース解析の価値

トレースでエージェントの思考を可視化

デバッグ効率が大幅に向上

ボトルネックの特定が容易に

ループ検出など異常を自動発見

本番環境での品質保証に活用

大規模運用への示唆

観測可能性が最重要インフラに

LangSmithなど専用ツールが台頭

エージェントの評価が標準化へ

コスト管理にも活用できる

規制準拠の証跡管理にも有効

詳細を見る

AIエージェントを大規模に運用する際の知見として、トレース分析による行動理解と品質管理の方法論が共有されました。エージェントの「思考過程」を記録し分析することが実用化の鍵とされています。

エージェントが複数のツールを呼び出す際に生成されるトレースデータから、失敗パターンや非効率なフローを特定できます。これはソフトウェアのAPMと同様の概念です。

観測可能性(Observability)はAIエージェント運用の必須インフラとして位置づけられており、LangSmith、Langfuse、Arize AIなどの専用ツールが市場を形成しています。

エージェントベースのシステムを本番環境で安定稼働させるためには、トレース・評価・フィードバックループの整備が前提条件となっています。

出典：blog.langchain.com

LangChain：AIシステムの「ドキュメント」はトレースが担う

2026年01月10日 LangChain エンジニア品質保証デバッグプロンプト LangSmith

トレースが新しいドキュメントとなる理由

LangChainが「AIシステムではトレースがドキュメント」という考え方を提示

ソフトウェアではコードが実装を記録するが、AIでは実行ログが重要

入力・出力・中間ステップがすべて記録されたトレースで動作を理解

LLMの確率的な挙動はコードだけでは把握できない

可観測性（Observability）がAI開発の必須要素に

LangSmithなどのトレーシングツールの役割が急速に重要化

詳細を見る

LangChainのエンジニアは「ソフトウェア開発ではコードがアプリを記録するが、AI開発ではトレースが記録する」というテーゼを提示しました。確率的に動作するLLMにおいては、実際の実行ログ（トレース）を見ることが唯一の正確な理解手段です。

特定の入力に対してどのようなプロンプトが送られ、モデルが何を返し、どのツールが呼び出されたかという実行の連鎖をトレースとして記録・可視化することで、初めてシステムの動作を「文書化」できます。

この観点はAIシステムのデバッグ・品質管理・改善のすべてに影響します。LangSmithやWeights & Biases、Arizeなどのトレーシングプラットフォームが、従来のAPIドキュメントやコードコメントに相当する役割を担う時代の到来を示しています。

出典：blog.langchain.com

AIが通信・教育・生命科学の現場を変える

2025年12月16日 OpenAI LangChain Replit 検索チャットボット GPT-5 ロボットコーディングバイブコーディングイタリアコンサルエージェントプロンプト LangSmith RAG ノーコード

LangGraphで実現した通信大手の顧客対応エージェント

Fastweb＋VodafoneがLangChain／LangGraphでAIエージェントを本番稼働

顧客向けSuper TOBiは約950万人に対応、正答率90%・解決率82%を達成

コールセンター向けSuper AgentはOne-Call解決率86%超に貢献

Neo4jナレッジグラフとRAGを組み合わせた手順主導のトラブル解決

LangSmithによる日次自動評価でモデル改善サイクルを継続運用

Supervisorパターンが意図ルーティングを決定論的に制御

AI支援で生命科学の実験効率を79倍に向上

OpenAIのGPT-5がHiFi DNA分子クローニング手順を自律最適化

RecA／gp32という新規酵素ペアを提案しRAPF-HiFi手法を発案

酵素アセンブリと形質転換の両最適化を合わせ79倍の効率改善を確認

ロボットシステムによる自律実験でヒト実験比89%の性能を実証

Replit Learnがコーディング不要の無料AI開発教育プラットフォームを開始

「バイブコーディング」の概念でAIとの反復的な試作学習を提供

詳細を見る

イタリアの通信大手Fastweb＋VodafoneはLangChainとLangGraphを基盤として、顧客向けチャットボット「Super TOBi」とコールセンター支援ツール「Super Agent」の2つのAIエージェントを本番環境に展開しました。約950万人の顧客に対応するSuper TOBiは正答率90%、解決率82%を達成しています。

Super Agentは、Neo4jに格納されたナレッジグラフとベクトルストアを組み合わせたハイブリッドRAGによって、コンサルタントへリアルタイムで最適な次のアクションを提示します。One-Call解決率は86%を超え、オペレーターの対応品質と一貫性が大幅に向上しました。

LangSmithを初日から導入した同社は、日次で自動評価パイプラインを稼働させ、チャットボット応答を分類・採点して継続的な改善フィードバックを生成しています。この仕組みにより、ビジネス担当者と技術チームが連携しながら目標品質水準を維持しています。

OpenAIはGPT-5を用いて湿式実験室における分子生物学のクローニング手順を自律最適化する実験を実施しました。固定プロンプトで人的介入なしに複数ラウンドの反復実験を行い、最終的に79倍の効率改善を達成したと報告しています。

特筆すべき発見はGPT-5が提案した新しい酵素メカニズムです。大腸菌由来の組換え酵素RecAとファージT4のgp32タンパク質を組み合わせたRAPF-HiFi手法は、DNA末端の安定化とホモロジー検索を促進し、既存のHiFi Gibsonクローニングより2.6倍の改善をもたらしました。

形質転換工程ではT7プロトコルがコンピテントセルの濃縮処理により36倍の改善を達成し、酵素と形質転換の両手法を組み合わせることで累計79倍という成果に至りました。これらの結果はAIが実際の実験室研究を意味ある形で支援できることを示しています。

一方でReplitはコーディング経験不要の無料教育プラットフォーム「Replit Learn」を公開しました。アプリの仕組み、LLMの基礎、バイブコーディングという3つのレッスンから構成されるAI Foundationsコースを提供し、誰でもAIを使ったアプリ開発を学べる環境を整えています。

これら3つの事例はいずれも、AIがドメイン固有の複雑な課題に対して実務レベルで機能し始めていることを示しています。通信の顧客対応、生命科学の実験最適化、そしてノーコードのソフトウェア教育という異なる領域で、エージェント型AIの実用化が着実に進んでいます。

出典：blog.langchain.com | blog.replit.com | OpenAI公式

LangChain、複雑なAIエージェントの解析・修正を自動化

2025年12月10日 LangChain Claude Claude Code 生産性アシスタントワークフローエンジニアコーディングデバッグエージェントプロンプト LangSmith

AIがログ解析・修正提案

膨大な実行ログからエラー原因を特定

自然言語でプロンプト修正案を自動生成

CLIで開発フローを統合

ターミナルからトレースデータを直接取得

ログをコーディングAIに渡し修正を自動化

複雑なエージェント開発を支援

数百ステップに及ぶ長時間処理を可視化

人手困難な解析作業をAIが代替

詳細を見る

LangChainは10日、LLMアプリ開発プラットフォーム「LangSmith」にて、自律型AIエージェントのデバッグを支援する新機能「Polly」と「Fetch」を発表しました。複雑化するAI開発において、エンジニアの負担を劇的に軽減し、生産性を高めるツールとして注目されます。

近年のAIエージェントは数百のステップを経て数分間稼働するなど複雑化し、「ディープエージェント」と呼ばれます。その結果、膨大な実行ログの中からエラー原因や非効率な挙動を人間が目視で特定することが極めて困難になり、開発のボトルネックとなっていました。

新機能の「Polly」は、ログ画面に常駐するAIアシスタントです。「どこで間違えたか」「より効率的な方法はないか」とチャットで問うだけで、AIが膨大なトレースを解析し回答します。さらに、改善点に基づきシステムプロンプトの具体的な修正案も提示します。

同時に発表されたCLIツール「Fetch」は、ターミナルやIDEでの開発を加速します。直近の実行ログをコマンド一つで取得し、Claude CodeなどのコーディングAIに直接パイプすることで、原因究明からコード修正までを半自動化するワークフローを実現します。

従来、多くの時間を要していたログ解析作業をAIに任せることで、エンジニアは本質的なロジック構築やアーキテクチャ設計に集中できます。これらのツールは、高度なAIエージェント開発の生産性と品質を同時に高める強力な武器となるでしょう。

出典：blog.langchain.com | blog.langchain.com | blog.langchain.com

LangSmith、対話で作れる自律AI構築機能を一般公開

2025年12月02日 OpenAI Anthropic LangChain 生産性ワークフロー業務効率エンジニアコーディングエージェントプロンプト MCP LangSmith ノーコード

チャットで自律エージェント開発

会話のみでノーコード開発

動的な判断でタスクを自律完遂

詳細プロンプトを自動生成

社内ツール連携とチーム共有

MCPで社内システムと接続

APIで既存ワークフローに統合

チーム内での共有と再利用

詳細を見る

LangChainは2025年12月2日、コーディング不要で実用的なAIエージェントを作成できる「LangSmith Agent Builder」をパブリックベータ版として公開しました。従来の固定的な手順書型とは異なり、チャットで指示するだけで、自律的に判断・実行する高度なエージェントを誰でも短時間で構築・展開できる点が画期的です。

最大の特徴は、エンジニアでなくとも対話形式で開発が完結する点です。ユーザーの曖昧なアイデアから、システムが自動で詳細なプロンプトを作成し、必要なツールを選定します。これにより、現場の担当者が自ら業務特化型AIを作ることが可能です。

従来の手順型自動化とは異なり、このエージェントは状況に応じて動的に計画を修正しながらタスクを遂行します。複雑な調査や分析など、事前に手順を定義しきれない業務でも、エージェントが試行錯誤を繰り返して目的を達成するため、生産性が向上します。

企業利用を見据え、拡張性も強化されました。MCPサーバーを介して社内データやAPIと安全に接続できるほか、作成したエージェントをAPI経由で呼び出すことも可能です。また、タスクに応じてOpenAIやAnthropicなどのモデルを選択できます。

先行ユーザーにより、営業リサーチやチケット管理など多岐にわたる事例が生まれています。チーム内でテンプレートを共有し、個々のニーズに合わせて微調整することで、開発リソースを使わずに組織全体の業務効率化を加速させることができます。

出典：blog.langchain.com

独JimdoがLangChain採用、個人事業主の注文数が40%増

2025年11月20日 LangChain AI導入ドイツブランド人事 SEO エージェントプロンプト LangSmith

課題と技術的アプローチ

個人事業主の専門知識不足を解決

LangGraphで文脈認識AIを構築

10以上のデータを統合分析

導入効果と今後の展望

初成約の達成率が50%向上

注文や問い合わせが40%増加

提案から実行の自動化へ進化

詳細を見る

ドイツのWebサイト作成サービスJimdoは、LangChainを活用したAI「Jimdo Companion」を開発しました。個人事業主が抱える集客や運営の課題に対し、10以上のデータソースを分析して最適な行動を提案します。このAI導入により、ユーザーの注文数が40%増加するなど顕著な成果を上げています。

多くの個人事業主はWebサイトを作成できても、SEOやマーケティングの専門知識が不足しています。その結果、トラフィックやコンバージョンを伸ばせず、効果的な施策を打てないという課題がありました。

開発チームはLangGraph.jsを採用し、状況に応じて動的に判断するAIを構築しました。ユーザーのビジネス状況や過去の行動履歴といった文脈を保持しつつ、複数の分析を並行して実行できる点が特徴です。

「Companion Assistant」はユーザーのブランドトーンを学習し、SEOや予約管理などを支援します。ダッシュボードでは、次に優先すべきアクションを具体的に提示し、意思決定をサポートします。

導入効果は明確で、AI利用者は利用しない層に比べて最初の顧客獲得率が50%高くなりました。単なる集客増だけでなく、提供価値の明確化や価格設定の最適化にも貢献しています。

AIの信頼性を担保するため、LangSmithを用いて回答精度や遅延を監視しています。評価プロセスを確立することで、継続的なプロンプトの改善やバグ修正の迅速化を実現しました。

今後は「アドバイス」から「実行」の自動化へ進化します。設定や最適化を自律的に行うエージェント群を強化し、個人事業主がビジネスの本質に集中できるプラットフォームを目指します。

出典：blog.langchain.com

ServiceNow、AIエージェント連携で顧客体験を革新

2025年11月17日 LangChain ワークフローエンジニア品質保証デバッグエージェント LangSmith

散在するエージェントの課題

部署ごとに断片化したAIエージェント

顧客体験の一貫性の欠如

LangChainによる高度な連携

LangGraphで複雑な連携を構築

LangSmithで挙動を可視化しデバッグ

人間が開発に介在し効率化

厳格な評価と今後の展望

独自の評価基準で性能を測定

成功例から品質データを自動生成

本番稼働後の継続的な監視

詳細を見る

デジタルワークフロー大手のServiceNowが、セールスとカスタマーサクセス業務の変革を目指し、LangChainのツール群を活用したマルチエージェントシステムを開発しています。顧客獲得から契約更新まで、一貫した顧客体験を提供することが狙いです。本記事では、その先進的なアーキテクチャと開発手法を解説します。

これまで同社では、AIエージェントが各部署に散在し、顧客のライフサイクル全体を横断する複雑なワークフローの連携が困難でした。この「エージェントの断片化」が、一貫性のある顧客対応を提供する上での大きな障壁となっていたのです。

この課題を解決するため、ServiceNowは顧客ジャーニー全体を統括するマルチエージェントシステムを構築しました。リード獲得、商談創出、導入支援、利用促進など各段階を専門エージェントが担当し、スーパーバイザーエージェントが全体を指揮する構成です。

システムの核となるエージェント間の連携には、LangGraphが採用されました。これにより、複雑な処理をモジュール化して組み合わせることが可能になりました。また、開発者が途中で処理を停止・再開できる機能は、開発効率を劇的に向上させました。

一方、エージェントの挙動監視とデバッグにはLangSmithが不可欠でした。各ステップの入出力や遅延、トークン数を詳細に追跡できるため、問題の特定が容易になります。これにより、開発チームはエージェントのパフォーマンスを正確に把握し、改善を重ねることができました。

品質保証の仕組みも高度です。LangSmith上で、エージェントのタスクごとに独自の評価基準を設定。さらに、LLMを判定者として利用し、出力の精度を評価します。基準を満たした成功例は「ゴールデンデータセット」として自動で蓄積され、将来の品質低下を防ぎます。

システムは現在、QA エンジニアによるテスト段階にあります。今後は本番環境でのリアルタイム監視に移行し、収集したデータで継続的に品質を向上させる計画です。ServiceNowのこの取り組みは、AIを活用した顧客管理の新たな標準となる可能性を秘めています。

出典：blog.langchain.com

LangChain、誰でもAIエージェントを開発できる新ツール

2025年10月29日 LangChain Salesforce Slack 生産性アシスタントワークフロースケジュール調整エンジニアエージェントプロンプト Gmail LangSmith ノーコード

ノーコードで誰でも開発

非開発者でも対話形式で構築

従来のワークフロービルダーと一線

LLMの判断力で動的に応答

複雑なタスクをサブエージェントに分割

連携と自動化を加速

Gmail等と連携するツール機能

イベントで起動するトリガー機能

ユーザーの修正を学習する記憶機能

社内アシスタントとして活用可能

詳細を見る

AI開発フレームワーク大手のLangChainは10月29日、開発者以外のビジネスユーザーでもAIエージェントを構築できる新ツール「LangSmith Agent Builder」を発表しました。このツールは、プログラミング知識を必要としないノーコード環境を提供し、対話形式で簡単にエージェントを作成できるのが特徴です。組織全体の生産性向上を目的としています。

新ツールの最大の特徴は、従来の視覚的なワークフロービルダーとは一線を画す点にあります。あらかじめ決められた経路をたどるのではなく、大規模言語モデル（LLM）の判断能力を最大限に活用し、より動的で複雑なタスクに対応します。これにより、単純な自動化を超えた高度なエージェントの構築が可能になります。

エージェントは主に4つの要素で構成されます。エージェントの論理を担う「プロンプト」、GmailやSlackなど外部サービスと連携する「ツール」、メール受信などをきっかけに自動起動する「トリガー」、そして複雑なタスクを分割処理する「サブエージェント」です。これらを組み合わせ、目的に応じたエージェントを柔軟に設計できます。

開発のハードルを大きく下げているのが、対話形式のプロンプト生成機能です。ユーザーが自然言語で目的を伝えると、システムが質問を重ねながら最適なプロンプトを自動で作成します。さらに、エージェントは記憶機能を備えており、ユーザーによる修正を学習し、次回以降の応答に反映させることができます。

具体的な活用例として、メールやチャットのアシスタント、Salesforceとの連携などが挙げられます。例えば、毎日のスケジュールと会議の準備資料を要約して通知するエージェントや、受信メールの内容に応じてタスク管理ツールにチケットを作成し、返信案を起草するエージェントなどが考えられます。

「LangSmith Agent Builder」は現在、プライベートプレビュー版として提供されており、公式サイトからウェイトリストに登録できます。同社は、オープンソースのLangChainやLangGraphで培った知見を活かしており、今後もコミュニティの意見を取り入れながら機能を拡張していく方針です。

出典：blog.langchain.com

LangSmith、AIエージェントの本番監視・評価を強化

2025年10月23日 LangChain エンジニアエージェント LangSmith

利用状況を自動で可視化

膨大な利用ログを自動分類

ユーザーの意図をパターン化

失敗原因の特定を支援

対話全体の成否を評価

複数回のやり取り全体を評価

ユーザー目的の達成度を測定

LLMによる自動スコアリング

詳細を見る

LangChain社が、LLMアプリ開発基盤「LangSmith」にAIエージェントの監視・評価を強化する新機能を追加しました。2025年10月23日に発表された「Insights Agent」と「Multi-turn Evals」です。これにより開発者は、本番環境でのユーザーの利用実態を深く理解し、エージェントの品質向上を加速できます。

AIエージェントが本番投入される事例が増える一方、その品質評価は大きな課題でした。従来の監視手法では、単なる稼働状況しか分からず、エージェントが「ユーザーの真の目的」を達成できたかまでは把握困難でした。膨大な対話ログの全てに目を通すのは非現実的です。

新機能「Insights Agent」は、この課題に応えます。本番環境の膨大な利用ログをAIが自動で分析し、共通の利用パターンや失敗モードを抽出。「ユーザーは何を求めているか」「どこで対話が失敗しているのか」をデータに基づき把握でき、改善の優先順位付けが格段に容易になります。

もう一つの新機能「Multi-turn Evals」は、複数回のやり取りからなる対話全体を評価します。個々の応答の正しさだけでなく、一連の対話を通じてユーザーの最終目的が達成されたかを測定。LLMを評価者として活用し、対話の成否を自動でスコアリングできるのが特徴です。

これら2つの機能を組み合わせることで、開発サイクルは劇的に変わるでしょう。「Insights Agent」で"何が起きているか"を把握し、「Multi-turn Evals」で"それが成功か"を測定する。この本番データに基づいた高速な改善ループこそが、信頼性の高いエージェントを構築する鍵となります。

LangChain社は、エージェント開発における「本番投入後の改善」という重要課題に正面から取り組みました。今回の新機能は、開発者が実世界のデータから学び、迅速に製品を改良するための強力な武器となるでしょう。今後の機能拡充にも期待が高まります。

出典：blog.langchain.com

LangSmith（プロダクト）に関するニュース一覧

LangSmith（プロダクト）に関するニュース一覧

自動修正の仕組み

マルチモデル時代の課題

暗黙知の取り込み

評価の自動化

継続改善の回し方

単一コマンド展開

モデル非依存設計

統合プラットフォームの全容

導入企業の活用事例

オープンな設計思想

ミドルウェアの仕組み

Deep Agentsの評価手法

スキルの概要と特徴

作成方法と拡張性

マルチエージェント構成

コンテキスト工学の工夫

UXと今後の展開

2つの認可モデル

運用と今後の展望

Fleet の主要機能

企業向け管理体制

Pollyの主な進化

デバッグ支援の強化

Sandboxesの概要

主要機能と安全設計

deploy CLIの主要機能

管理コマンドと開発支援

統合プラットフォームの全容

評価・監視と今後の展開

主な成果

技術構成

評価パイプラインの要点

スキル設計の知見

Skills機能の概要

LangSmith新機能

エージェント運用の知見

エージェント可観測性と評価

メモリシステムと監査ループ

LLMOpsの実践事例

フレームワーク設計の原則

提供内容

意義と展望

トレースベース解析の価値

大規模運用への示唆

トレースが新しいドキュメントとなる理由

LangGraphで実現した通信大手の顧客対応エージェント

AI支援で生命科学の実験効率を79倍に向上

AIがログ解析・修正提案

CLIで開発フローを統合

複雑なエージェント開発を支援

チャットで自律エージェント開発

社内ツール連携とチーム共有

課題と技術的アプローチ

導入効果と今後の展望

散在するエージェントの課題

LangChainによる高度な連携

厳格な評価と今後の展望

ノーコードで誰でも開発

連携と自動化を加速

利用状況を自動で可視化

対話全体の成否を評価

関連キーワード

同じカテゴリ

他カテゴリ