AIエージェント更新、効果をA/Bテストで可視化

運用エージェントRaindrop

Raindropの新機能

企業向けAIエージェントのA/Bテスト
更新による性能変化を正確に比較
実ユーザー環境での振る舞いをデータで追跡

開発の課題を解決

「評価は合格、本番で失敗」問題に対処
データ駆動でのモデル改善を支援
障害の根本原因を迅速に特定

提供形態と安全性

月額350ドルのProプランで提供
SOC 2準拠で高い安全性を確保
詳細を読む

AIの可観測性プラットフォームを提供するスタートアップRaindropが、企業向けAIエージェントの性能を評価する新機能「Experiments」を発表しました。LLMの進化が加速する中、モデル更新が性能に与える影響をA/Bテストで正確に比較・検証できます。これにより、企業はデータに基づいた意思決定でAIエージェントを継続的に改善し、実際のユーザー環境での「評価は合格、本番で失敗する」という根深い問題を解決することを目指します。

「Experiments」は、AIエージェントへの変更がパフォーマンスにどう影響するかを可視化するツールです。例えば、基盤モデルの更新、プロンプトの修正、使用ツールの変更など、あらゆる変更の影響を追跡。数百万件もの実ユーザーとの対話データを基に、タスク失敗率や問題発生率などをベースラインと比較し、改善か改悪かを明確に示します。

多くの開発チームは「オフライン評価は合格するのに、本番環境ではエージェントが失敗する」というジレンマに直面しています。従来の評価手法では、予測不能なユーザーの行動や長時間にわたる複雑なツール連携を捉えきれません。Raindropの共同創業者は、この現実とのギャップを埋めることが新機能の重要な目的だと語ります。

このツールは、AI開発に現代的なソフトウェア開発の厳密さをもたらします。ダッシュボードで実験結果が視覚的に表示され、どの変更が肯定的な結果(応答の完全性向上など)や否定的な結果(タスク失敗の増加など)に繋がったかを一目で把握可能。これにより、チームは憶測ではなく客観的データに基づいてAIの改善サイクルを回せます。

Raindropは元々、AIの「ブラックボックス問題」に取り組む企業として設立されました。従来のソフトウェアと異なりAIは「静かに失敗する」特性があります。同社は、ユーザーフィードバックやタスク失敗などの兆候を分析し本番環境での障害を検知することから事業を開始。今回の新機能は、障害検知から一歩進んで改善効果の測定へと事業を拡張するものです。

「Experiments」は、Statsigのような既存のフィーチャーフラグ管理プラットフォームとシームレスに連携できます。セキュリティ面では、SOC 2に準拠し、AIを用いて個人を特定できる情報(PII)を自動で除去する機能も提供。企業が機密データを保護しながら、安心して利用できる環境を整えています。本機能は月額350ドルのProプランに含まれます。