ハーネス設計でエージェントがTop5に浮上

ハーネスエンジニアリングの効果

Terminal Bench 2.0でTop5入り
自己検証とトレーシングが有効
モデル変更なしの大幅改善
詳細を読む

LangChainは自社のコーディングエージェントをTerminal Bench 2.0でTop30からTop5に引き上げることに成功しました。驚くべきことに、モデル自体は変更せずエージェントを動かす「ハーネス」の設計のみを改良した結果です。

自己検証エージェントが自分のアウトプットを検証するループ)とトレーシングの組み合わせが特に効果的でした。これはモデル性能だけでなく、エージェント設計が重要であることを示す実証例です。