PixelRAG、画面読みでRAG精度向上・コスト10分の1

2026年06月12日検索品質保証画像エージェントプロンプトベンチマーク

解析を捨てる手法

テキスト解析を完全に省略

ページを画像化して検索

Wikipedia全体3000万タイル化

性能とコスト

6ベンチで精度18.1%向上

エージェントのトークン10分の1

視覚分割が未解決課題

出典：VentureBeat

詳細を読む

米カリフォルニア大学バークレー校やプリンストン大学などの研究チームは2026年6月12日、文書を文字に変換せず画面画像のまま検索する新手法「Pixel RAG」を発表しました。従来のRAGはウェブページをテキストに解析してから索引化しますが、この変換工程が誤答の大半を生んでいると同チームは指摘します。

Pixel RAGはページをスクリーンショットとして描画し、その画像を索引化したうえで、抽出した断片を視覚言語モデル（VLM）に直接読ませます。VLMは人間と同じくレイアウトや構造を保ったままページを解釈できるため、表や見出し、強調表示といった情報の欠落を防げる点が特徴です。

研究チームはWikipedia全7百万記事を約3000万枚のタイルに分割し、6種類のベンチマークで検証しました。テキスト型RAGを全項目で上回り、事実質問のSimpleQAでは精度が71.6%から78.8%へ、表形式の質問では42.5%から48.8%へ改善しています。

とりわけ注目されるのが運用コストです。AIエージェントの検索基盤としてPixel RAGを使うと、消費プロンプトトークンが3750万からわずか360万へ激減し、コストは2〜4分の1に下がりました。画像圧縮を併用すれば、さらに3分の1の削減が見込めます。

一方で課題も残ります。ページを固定の画素高で機械的に分割するため、表や段落が途中で切れる「視覚的チャンク化」の問題が未解決です。研究チームはこれを今後の重要な研究領域と位置づけています。

実務面では、既存のテキスト検索を置き換えるのではなく、その上に視覚検索を重ねるハイブリッド運用が現実的な導入経路だと著者らは強調します。企業のRAG刷新を検討するリーダーにとって、段階的に精度とコストを改善できる選択肢といえそうです。