Gemini APIファイル検索、画像とメタデータに対応

マルチモーダルRAGの実現

画像とテキストの同時検索が可能に
Gemini Embedding 2モデルで画像を直接理解
自然言語での視覚的スタイル検索に対応
前処理不要でマルチモーダルデータを統合

精度と信頼性の強化

カスタムメタデータでフィルタリング精度向上
キーバリュー型ラベルでデータを構造化
ページ単位の引用で出典を明示
大規模PDFでもファクトチェックが容易に
詳細を読む

Googleは2026年5月5日、Gemini APIのFile Search機能を大幅に拡張し、マルチモーダルデータを扱えるRAGシステムの構築を可能にしたと発表しました。従来はテキストのみだった検索対象が画像にも広がり、カスタムメタデータやページ単位の引用機能も新たに追加されています。

Gemini Embedding 2モデルを活用した新しいFile Searchでは、画像とテキストを同時に処理できます。たとえばクリエイティブエージェンシーが、キーワードやファイル名ではなく自然言語で「特定の感情やビジュアルスタイル」を記述して画像アーカイブを検索するといった用途が想定されています。

カスタムメタデータ機能により、非構造化データにキーバリュー形式のラベルを付与できるようになりました。department: Legalstatus: Finalのようなフィルタをクエリ時に適用することで、無関係なドキュメントからのノイズを削減し、検索速度と精度の両方を改善します。

ページ引用機能は、大規模PDFから抽出された回答の出典をページ番号レベルで特定します。ユーザーが回答の根拠を即座に確認でき、ファクトチェックが必要な業務での信頼性を大きく高めます。

すでに複数の企業が早期導入を進めています。AI共同研究プラットフォームのK-Denseは科学画像の混合モーダル検索で高い精度を確認し、GIF検索のKlipyはテキスト内画像の理解精度向上とハルシネーション排除を評価しています。