LangChainは自社のコーディングエージェントをTerminal Bench 2.0でTop30からTop5に引き上げることに成功しました。驚くべきことに、モデル自体は変更せず、エージェントを動かす「ハーネス」の設計のみを改良した結果です。 自己検証(エージェントが自分のアウトプットを検証するループ)とトレーシングの組み合わせが特に効果的でした。これはモデル性能だけでなく、エージェント設計が重要であることを示す実証例です。