Databricks、強化学習で万能型RAGエージェント「KARL」を開発
出典:VentureBeat
詳細を読む
Databricksは、強化学習を活用した企業向けRAGエージェント「KARL(Knowledge Agents via Reinforcement Learning)」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。
従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。
学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。
注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。
一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェントを強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。