Databricks、強化学習で万能型RAGエージェント「KARL」を開発

KARLの技術的革新

6種の検索行動を同時学習
合成データのみで人手ラベル不要
OAPLアルゴリズムで学習効率3倍
コスト33%減・遅延47%減を達成

企業RAGへの示唆

単一タスク最適化は他タスクで破綻
マルチタスクRLで未知タスクにも汎化
文脈圧縮をエンド・ツー・エンドで学習
SQL・ファイル検索今後の課題
詳細を読む

Databricksは、強化学習を活用した企業向けRAGエージェントKARL(Knowledge Agents via Reinforcement Learning)」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。

従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。

学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。

注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。

一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェント強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。