Databricks、マルチステップAIエージェントが単発RAGを21%上回ると実証

研究の核心的発見

単発RAG構造化・非構造化データの横断に失敗
より強力なモデルでもエージェント21%劣後
性能差はモデル品質でなくアーキテクチャの問題

Supervisorエージェントの仕組み

SQLとベクトル検索並列実行
失敗検知と自動クエリ再構成
宣言的設定でカスタムコード不要

企業への示唆

5〜10データソースで段階的拡張を推奨
データソース追加は設定作業のみで完結
詳細を読む

DatabricksのAI研究チームは、マルチステップ型のAIエージェントが従来の単発RAG検索拡張生成)を大幅に上回るという研究成果を発表しました。スタンフォード大学のSTaRKベンチマークで9つの企業向け知識タスクを検証した結果、マルチステップエージェントは単発RAGに対して20%以上の精度向上を示しています。売上データと顧客レビューのように、構造化データと非構造化データをまたぐ質問に対し、単発RAGが根本的に対応できないことがその背景にあります。

研究の最も重要な発見は、この性能差がモデルの品質ではなくアーキテクチャに起因するという点です。Databricksが最新の高性能基盤モデルで既存のSTaRKベースラインを再実行したところ、それでもマルチステップエージェントに対して学術領域で21%、生物医学領域で38%劣る結果となりました。つまり、より賢いモデルを使うだけでは、構造化・非構造化データの横断的な質問を解決できないことが示されています。

Databricksが構築したSupervisorエージェントは、3つの中核機能で従来のRAGの限界を克服します。第一に、SQLクエリとベクトル検索を並列に実行し、結果を統合してから次のアクションを決定します。第二に、初回の検索が失敗した場合に自動的にクエリを再構成して別のアプローチを試みる自己修正機能を備えています。第三に、新しいデータソースの接続に必要なのは自然言語による説明文の記述だけで、カスタムコードは不要です。

研究責任者のMichael Bendersky氏は「RAGは機能するが、スケールしない」と指摘しています。従来のカスタムRAGパイプラインでは、SQLテーブルのフラット化やJSONの正規化など、新しいデータソースごとに変換作業が必要でした。一方、宣言的なエージェントフレームワークであれば、各データソースをネイティブな形式のまま問い合わせることが可能です。「エージェントをデータのもとへ持っていくだけでいい」とBendersky氏は述べています。

企業への実務的な示唆として、構造化データと非構造化データをまたぐ質問が必要な場合、カスタムRAGパイプラインの構築よりもエージェント型アーキテクチャの採用が有利であることを研究は示しています。ただし、データソースは5〜10個で段階的に拡張し、各段階で結果を検証することが推奨されます。また、エージェントはフォーマットの不一致を処理できますが、元データの事実誤認までは修正できないため、データ品質の確保が前提条件となります。