DeepAgents CLI、ベンチマークでClaude Codeと同等性能
オープンソースのCLI
Python製のモデル非依存ツール
シェル実行やファイル操作が可能
隔離環境での厳密な評価
Harborで隔離環境を構築
大規模な並列テストに対応
詳細を読む
LangChainは、自社のDeepAgents CLIが評価指標Terminal Bench 2.0において約42.5%のスコアを記録したと発表しました。この数値はClaude Codeと同等の水準であり、エンジニアにとって有力な選択肢となります。オープンソースかつモデル非依存のエージェントとして、実環境での高い運用能力と将来性が実証された形です。
DeepAgents CLIは、Pythonで記述された端末操作型のコーディングエージェントです。特定のLLMに依存せず、ファイル操作やシェルコマンド実行、Web検索などを自律的に行います。開発者の承認を経てコード修正を行うため、安全性も考慮されています。
今回の評価には、89の実践的タスクを含むTerminal Bench 2.0が使用されました。ソフトウェア工学からセキュリティまで多岐にわたる分野で、エージェントが端末環境を操作する能力を測定します。複雑なタスクでは100回以上の操作が必要となります。
評価の信頼性を担保するため、Harborというフレームワークが採用されました。DockerやDaytonaなどの隔離されたサンドボックス環境でテストを行うことで、前回のテストの影響を排除し、安全かつ大規模な並列実行を実現しています。
今回の結果により、DeepAgents CLIがコーディングエージェントとして強固な基盤を持つことが証明されました。LangChainは今後、エージェントの挙動分析や最適化を進め、さらなる性能向上を目指す方針です。