AIエージェント構築・検証・微調整の最前線

自律エージェントの精度を高める新アプローチ

ReplitのAgent 3がREPLベース検証で200分以上の自律動作を実現
ブラウザ自動化とコード実行を組み合わせ「見せかけ実装」を自動検出
IBM製オープンソースフレームワークCUGAがHugging Face Spacesに統合
AppWorldベンチマーク1位・WebArena上位を達成した設定可能な汎用エージェント
プランナー/エグゼキューター分離とコードアクト方式で幻覚を抑制
MCP・OpenAPI・LangChain対応のマルチツール連携機能を提供

エージェントAIを支えるデータ基盤と軽量ファインチューニング

Twilioレポートで54%の消費者がAIの文脈保持の欠如を指摘
会話型AIには静的CDPではなくリアルタイム会話メモリが必要と提言
NVIDIAがNemotron 3ファミリーをエージェントAI微調整向けに発表
Unslothを使い低メモリNVIDIA GPULoRA/QLoRAによる効率的なファインチューニングが可能
詳細を読む

ReplitはAgent 3の開発において、コードが「動いているように見えるだけ」の問題、いわゆる「ポチョムキン実装」に悩まされてきました。この課題を解決するためREPL(対話型実行環境)とブラウザ自動化を組み合わせた独自の検証システムを構築し、エージェントが生成したコードを実際に実行・操作して機能の実在性を確認できるようにしました。

この仕組みによりAgent 3は200分以上にわたって自律的にタスクを継続でき、単に見た目を整えるだけの実装を自動的に検出・修正するサイクルを回せるようになりました。自己テスト型の検証ループはエージェント品質保証に新たな基準を示しています。

IBMが開発したCUGA(Configurable Generalist Agent)はオープンソースの汎用AIエージェントフレームワークです。AppWorldベンチマークで1位、WebArenaでも上位を記録しており、WebやAPIを跨ぐ複雑なマルチステップタスクを高い精度でこなします。

CUGAは現在Hugging Face Spacesに統合され、オープンモデルと組み合わせて誰でも試せる環境が整いました。推論モードをコスト・レイテンシに応じて切り替えられる柔軟な設計が特徴で、MCP・OpenAPI・LangChain経由の多様なツール連携にも対応しています。

Twilioの調査によると、消費者の54%が「AIは過去のやりとりをほとんど覚えていない」と感じており、AIから人間担当者へ引き継がれる際に全文脈が共有されると答えたのはわずか15%でした。エージェントAIが真に機能するには、リアルタイムで携帯可能な会話メモリが不可欠です。

この問題を解決するには、従来のCRMやCDPを使い続けるのではなく、会話メモリをコミュニケーションインフラの内部に組み込む必要があると指摘されています。Twilioはこうした次世代の顧客データ基盤の構築を推進しています。

NVIDIAはNemotron 3ファミリーを発表し、エージェントAIの微調整に最適化されたオープンモデルとライブラリを提供しました。GeForce RTXラップトップからDGX Sparkまで幅広いNVIDIA GPUで動作します。

Unslothを使ったLoRA/QLoRAによるファインチューニングは、フルパラメータ更新より少ないメモリと時間でモデルを特定タスクへ特化させる手法です。製品サポートや個人アシスタントなどの用途で小型言語モデルの精度を高める実用的なアプローチとして注目されています。