Gemini APIファイル検索、画像とメタデータに対応
出典:Google公式
詳細を読む
Googleは2026年5月5日、Gemini APIのFile Search機能を大幅に拡張し、マルチモーダルデータを扱えるRAGシステムの構築を可能にしたと発表しました。従来はテキストのみだった検索対象が画像にも広がり、カスタムメタデータやページ単位の引用機能も新たに追加されています。
Gemini Embedding 2モデルを活用した新しいFile Searchでは、画像とテキストを同時に処理できます。たとえばクリエイティブエージェンシーが、キーワードやファイル名ではなく自然言語で「特定の感情やビジュアルスタイル」を記述して画像アーカイブを検索するといった用途が想定されています。
カスタムメタデータ機能により、非構造化データにキーバリュー形式のラベルを付与できるようになりました。department: Legalやstatus: Finalのようなフィルタをクエリ時に適用することで、無関係なドキュメントからのノイズを削減し、検索速度と精度の両方を改善します。
ページ引用機能は、大規模PDFから抽出された回答の出典をページ番号レベルで特定します。ユーザーが回答の根拠を即座に確認でき、ファクトチェックが必要な業務での信頼性を大きく高めます。
すでに複数の企業が早期導入を進めています。AI共同研究プラットフォームのK-Denseは科学画像の混合モーダル検索で高い精度を確認し、GIF検索のKlipyはテキスト内画像の理解精度向上とハルシネーション排除を評価しています。