PixelRAG、画面読みでRAG精度向上・コスト10分の1

解析を捨てる手法

テキスト解析を完全に省略
ページを画像して検索
Wikipedia全体3000万タイル化

性能とコスト

6ベンチで精度18.1%向上
エージェントトークン10分の1
視覚分割が未解決課題
詳細を読む

米カリフォルニア大学バークレー校やプリンストン大学などの研究チームは2026年6月12日、文書を文字に変換せず画面画像のまま検索する新手法「PixelRAG」を発表しました。従来のRAGはウェブページをテキストに解析してから索引化しますが、この変換工程が誤答の大半を生んでいると同チームは指摘します。

PixelRAGはページをスクリーンショットとして描画し、その画像を索引化したうえで、抽出した断片を視覚言語モデル(VLM)に直接読ませます。VLMは人間と同じくレイアウトや構造を保ったままページを解釈できるため、表や見出し、強調表示といった情報の欠落を防げる点が特徴です。

研究チームはWikipedia全7百万記事を約3000万枚のタイルに分割し、6種類のベンチマークで検証しました。テキスト型RAGを全項目で上回り、事実質問のSimpleQAでは精度が71.6%から78.8%へ、表形式の質問では42.5%から48.8%へ改善しています。

とりわけ注目されるのが運用コストです。AIエージェント検索基盤としてPixelRAGを使うと、消費プロンプトトークンが3750万からわずか360万へ激減し、コストは2〜4分の1に下がりました。画像圧縮を併用すれば、さらに3分の1の削減が見込めます。

一方で課題も残ります。ページを固定の画素高で機械的に分割するため、表や段落が途中で切れる「視覚的チャンク化」の問題が未解決です。研究チームはこれを今後の重要な研究領域と位置づけています。

実務面では、既存のテキスト検索を置き換えるのではなく、その上に視覚検索を重ねるハイブリッド運用が現実的な導入経路だと著者らは強調します。企業のRAG刷新を検討するリーダーにとって、段階的に精度とコストを改善できる選択肢といえそうです。