RAG(LLM技術)に関するニュース一覧

PaddleOCR 3.5、Transformers推論に対応

主な変更点

Transformersを推論バックエンドに追加
engineパラメータでバックエンド切替可能
dtype・デバイス配置等を柔軟に設定
パイプライン管理はPaddleOCR側が担当

開発者への影響

HuggingFace中心の環境と自然に統合
RAG・文書AI構築の前処理が容易に
Hub経由のモデル配布に対応
高スループット用途にはpaddle_staticを推奨

PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。

RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります

使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。

注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。

グラフDB併用RAGで多段推論の精度向上へ

ベクトル検索の限界

類似度検索は構造的関係を喪失
多段推論の問いにLLMが幻覚を生成
サプライチェーン等の連鎖構造に弱い

ハイブリッド検索の設計

取り込み時にエンティティと関係を抽出
Neo4j等のグラフDBにベクトルを属性保存
ベクトル検索→グラフ走査の2段階検索

本番運用の課題と判断基準

検索レイテンシは200-500msに増大
セマンティックキャッシュで頻出クエリを高速化

グラフ強化型RAGのアーキテクチャパターンを解説する技術記事が、2026年5月17日にVentureBeatで公開されました。MetaやCogneeでの実務経験を持つエンジニアが、ベクトル検索のみのRAGが企業ドメインで抱える構造的限界を指摘し、グラフデータベースを併用するハイブリッド検索パターンの参考実装を示しています。

標準的なRAGはドキュメントをチャンク分割しベクトルDBに格納しますが、この手法では階層・依存・所有といった明示的な関係性が失われます。たとえばサプライチェーンにおいて「部品Xの遅延が顧客Yの納品にどう影響するか」という多段推論の質問に対し、ベクトル検索だけでは構造的なリンクを復元できず、LLMが幻覚を生成するか回答不能に陥ります。

提案されるハイブリッドアーキテクチャは3層構成です。取り込み層ではLLMやNERモデルでエンティティと関係を抽出し、ストレージ層ではNeo4j等のグラフDBにノードの属性としてベクトル埋め込みを保存します。検索層ではベクトルスキャンでエントリポイントを特定した後、Cypherクエリでグラフを走査し下流への影響を構造的に把握します。

本番環境への展開ではレイテンシとデータ整合性が課題になります。グラフ走査はベクトル検索のみの50-100msに対し200-500msを要するため、コサイン類似度0.85以上の類似クエリにはキャッシュを返すセマンティックキャッシュで対処します。また関係の陳腐化を防ぐため、TTL設定やERPからのCDCパイプラインによる同期が推奨されています。

記事は導入判断のフレームワークも提示しています。フラットなコーパスや広範な質問、厳格なレイテンシ要件にはベクトルのみのRAGが適する一方、規制産業で説明可能性が求められる場合や多段関係に依存する回答が必要な場合にはグラフ強化型RAGが有効とされています。

IBMが97Mパラメータで最高精度の多言語埋め込みモデルを公開

小型モデルの性能躍進

97Mパラメータで同規模最高の検索精度
MTEB多言語検索60.3を記録
前世代R1から12.2ポイント改善
コンテキスト長を512から32Kトークンに拡大

実用性重視の設計思想

Apache 2.0ライセンスで商用利用可
200以上の言語と9種のプログラミング言語に対応
LangChain等の主要フレームワークに1行で導入可能

311Mモデルの総合力

MTEB多言語検索65.2で上位
Matryoshka対応で次元削減時も精度維持

IBMは2026年5月14日、オープンソースの多言語埋め込みモデル「Granite Embedding Multilingual R2」を発表しました。97Mパラメータのコンパクトモデルと311Mパラメータのフルサイズモデルの2種類で、いずれもApache 2.0ライセンスのもと、200以上の言語と9種類のプログラミング言語に対応します。

最大の注目点は97Mパラメータモデルの検索性能です。MTEB多言語検索ベンチマーク60.3を記録し、100M未満のオープンな多言語埋め込みモデルとしては最高スコアとなりました。同規模で次点のmultilingual-e5-smallの50.9を9.4ポイント上回っています。前世代のR1モデルからはアーキテクチャの刷新やトレーニング手法の改良により、12.2ポイントの大幅な改善を実現しています。

技術面では、エンコーダをXLM-RoBERTAからModernBERTに刷新し、コンテキスト長を512トークンから32,768トークンへ64倍に拡大しました。これにより長文文書の検索精度が劇的に向上し、LongEmbedベンチマークでは31.3ポイントの改善を記録しています。法務文書や技術マニュアルなど、実務で扱う長い文書の検索において大きな恩恵をもたらします。

311MモデルはMatryoshka表現学習に対応しており、768次元の埋め込みを256次元に削減してもMTEB多言語検索で0.5ポイント低下にとどまります。ストレージや計算コストを3分の1に抑えつつ高い検索品質を維持できるため、大規模な本番環境への導入に適しています。

企業利用を強く意識した設計も特徴です。MS-MARCOデータセットや非商用ライセンスのデータを使用せず、IBMが独自にキュレーションしたデータで学習しています。sentence-transformersLangChainLlamaIndex、Haystack、Milvusといった主要フレームワークにモデル名を1行変更するだけで導入できるため、既存のRAGパイプラインへの組み込みも容易です。ONNX・OpenVINO形式のウェイトも同梱されており、GPUなしでのCPU推論にも対応しています。

業務AIアプリがそのまま学習基盤に、ML人材不要の独自モデル構築

Alchemyの仕組み

業務アプリの出力を自動で学習データ化
専門家の修正がそのまま教師データに
Expert Nano Modelsで業務特化
モデル重みは企業側が完全所有

既存手法との違い

RAGと従来ファインチューニングの第三の選択肢
別途データ整備やML人材が不要
LlamaQwen等の基盤モデルに対応

導入効果と課題

行動療法企業が記録作業を最大87%短縮
プラットフォーム依存というトレードオフ

サンフランシスコのEmpromptu AIが、企業向けカスタムAIモデル構築プラットフォーム「Alchemy Models」を発表しました。企業が運用中のAIアプリケーションから生まれる出力データを自動で収集し、社内の専門家が修正・検証した結果をそのまま学習データとして活用します。別途データセットを用意する必要がなく、ML専門チームなしでドメイン特化モデルを構築できる点が最大の特徴です。

従来、企業がAIモデルをカスタマイズするには、RAG推論時に外部知識を参照)か、独自データセットを準備してファインチューニングするかの二択でした。Alchemyはこの両者とは異なり、業務アプリケーションそのものをデータパイプラインとして機能させます。生成されるモデルは「Expert Nano Models」と呼ばれる小規模な業務特化型で、評価・ガバナンス・コンプライアンス管理もパイプライン内で一体運用されます。

CEOのShanea Leven氏は「すべての顧客がビジネスをどう守るかに悩んでいるが、その道筋が見えていない」と指摘します。Alchemyでは利用が増えるほど学習シグナルが蓄積し、モデル精度が向上するデータフライホイールが働きます。基盤モデルLlamaQwenなどに対応し、重みは顧客が完全に所有できます。

早期導入企業の行動療法企業Ascent Autismでは、セッション記録や保護者向け報告書の作成にAlchemyを活用。従来1〜2時間かかっていた文書作成が10〜15分に短縮され、最大87%の時間削減を実現しました。担当者は文書を一から書く作業から、生成結果の編集・品質確認へと役割が変化しています。

ただし課題もあります。AlchemyはEmpromptuのプラットフォーム上でのみ動作するため、ベンダーロックインのリスクが伴います。また、有効なファインチューニングには一定量の本番データの蓄積が必要で、初期段階ではベースモデルのまま運用する期間が発生します。ヘルスケア・金融・法務・小売といった規制の厳しいデータ集約型業界を主要ターゲットとしており、汎用モデルの出力ミスマッチが大きい領域ほど効果が見込まれます。

最先端LLMでも文書の25%を静かに破壊する

ベンチマークが暴く実態

52専門領域310環境で検証
平均50%の文書劣化
最先端モデルでも25%破損
Python以外の領域で深刻な低スコア

破損の特徴と対策

小さな蓄積でなく突発的な大規模崩壊
高性能モデルほど巧妙な改変で発覚困難
汎用ツール付与で性能がむしろ悪化
ドメイン特化ツールの構築が不可欠

Microsoft Researchの研究チームが、LLMに文書編集を委任する作業の信頼性を測定するベンチマーク「DELEGATE-52」を開発しました。52の専門領域にわたる310の作業環境で、20回の連続編集をシミュレーションした結果、全モデル平均で文書内容の50%が劣化し、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4といった最先端モデルでも25%が破損することが判明しています。

特筆すべきは破損のパターンです。小さなエラーが徐々に蓄積するのではなく、劣化の約80%は1回のやり取りで文書の10%以上が消失する突発的な大規模障害によって引き起こされます。さらに弱いモデルが主にコンテンツを削除するのに対し、高性能モデルは既存の内容を巧妙に書き換えてしまうため、人間のレビューで発見するのが極めて困難です。

コード実行やファイル操作などの汎用ツールをエージェントに与えると、むしろ平均6%性能が悪化することも示されました。研究者は、汎用ツールではなく、ドメイン固有の狭い範囲に絞ったツールを構築すべきだと指摘しています。RAGパイプラインについても、単発の検索ベンチマークではなく複数ステップのワークフローで評価すべきだと警告しています。

研究チームは、完全自律型AIエージェントへの過度な期待に警鐘を鳴らしつつも、改善速度には楽観的な見方を示しています。GPTシリーズだけでも18か月で20%未満から約70%へとスコアが向上しました。ただし企業環境の規模と多様性を考えると、カスタムのドメイン特化ツール構築は今後も欠かせないと結論づけています。

LLMは文書の25%を静かに改変する

委任作業の落とし穴

52専門領域310環境で検証
20回の反復編集で平均50%劣化
最優秀モデルでも25%が変質
Python以外の領域で信頼性不足

破局的失敗の構造

劣化の80%は突発的大規模障害
高性能モデルほど巧妙な改変
汎用ツール付与で性能6%悪化
RAG評価は多段階検証が必須

Microsoft Researchの研究チームが、LLMに文書編集を委任する作業の信頼性を測定するベンチマーク「DELEGATE-52」を発表しました。会計、ソフトウェア工学、結晶学、音楽記譜など52の専門領域にわたる310の作業環境を用意し、19のモデルに対して20回の連続編集タスクを実行させた結果、全モデル平均で文書内容の50%が劣化することが明らかになりました。

評価手法には機械翻訳のバックトランスレーションに着想を得た「往復リレー」方式が採用されています。編集指示とその逆操作をペアにし、元の文書がどれだけ正確に復元されるかを自動測定します。各ラウンドは独立した会話セッションで実施されるため、モデルは直前の作業を「覚えて元に戻す」ことはできず、純粋な編集能力が問われます。

Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4といった最上位モデルでも平均25%の文書内容が損なわれました。注目すべきは劣化パターンの違いです。低性能モデルは内容を削除する傾向がある一方、高性能モデルはテキストを残しつつ微妙に歪曲・幻覚を混入させるため、人間による検出がはるかに困難になります。劣化の約80%は徐々に蓄積するのではなく、一度に10%以上の内容が失われる突発的な破局的失敗に起因していました。

実務への示唆も重要です。コード実行やファイル操作などの汎用ツールを与えると性能はむしろ6%悪化し、ドメイン特化型ツールの必要性が浮き彫りになりました。RAGパイプラインにおいても、ノイズの多いコンテキストは2回のやり取りでは1%の劣化にとどまるものの、長期シミュレーションでは2〜8%に膨れ上がります。研究者は、自律エージェントの導入には短く透明性の高いタスク設計と、段階的な人間レビューが不可欠だと指摘しています。

TechCrunch発AI用語集、AGIから強化学習まで網羅

基礎用語の定義

LLMの仕組みと主要サービス
トークンの概念と課金モデル
推論と学習の明確な区別

最新トレンド用語

AIエージェントの定義と現状
RAMageddonによるメモリ不足問題
オープンソースと独自モデルの対比

技術手法の解説

思考の連鎖推論精度が向上
蒸留による小型モデル生成手法

TechCrunchが、AI分野で頻出する専門用語を網羅的にまとめた用語集を更新しました。AGI(汎用人工知能)からバリデーションロスまで、業界の基本概念を平易な言葉で解説しています。「LLM」「RAG」「RLHF」といった略語に戸惑う読者を想定し、随時更新される生きたドキュメントとして位置づけられています。

大規模言語モデル(LLM)については、ChatGPTClaudeなどの基盤技術として紹介されています。数十億のパラメータで言語の関係性を学習する仕組みが説明されており、トークンは人間の言語をAIが処理可能な単位に分割する基本概念として定義されています。企業がトークン単位で課金するビジネスモデルにも触れられています。

注目すべきは、AIエージェントコーディングエージェントといった最新概念の整理です。AIエージェントは経費精算や予約といった複数ステップのタスクを自律実行するツールとして定義されています。コーディングエージェントはその特化版で、コードの記述・テスト・デバッグを最小限の人間監督で行うものとされています。

業界特有の新語も取り上げられています。RAMageddonは、AIデータセンターによるメモリチップの大量消費がゲーム機やスマートフォンなど他産業に波及し、価格高騰を招いている現象を指します。ハルシネーション(幻覚)問題も重要項目として扱われ、ドメイン特化型AIの開発が対策の一つとして示されています。

技術手法としては、思考の連鎖による推論精度の向上、強化学習によるLLMの安全性改善、蒸留による小型高効率モデルの生成が解説されています。オープンソースとクローズドソースの対比では、MetaLlamaOpenAIのGPTを例に挙げ、AI業界の根本的な論点として位置づけています。

OncoAgent、がん診療AIをオープンソースで実現

システム構成と技術基盤

8ノードのLangGraphで臨床推論を分解
9Bと27Bの2段階モデルで症例難度に応じ切替
70超のNCCN/ESMOガイドラインをRAGで参照
3層の安全検証で幻覚出力を遮断

MI300Xでの学習成果

26.7万症例のQLoRA学習を約50分で完了
合成データ生成はAPI比56倍の高速化
全工程を1台で完結し患者データの外部送信なし

オープンソースのがん領域臨床意思決定支援システム「OncoAgent」の技術論文が、Hugging Faceブログで2026年5月9日に公開されました。OncoAgentは、LangGraphによる8ノードのマルチエージェント構成と、4段階の補正RAGパイプラインを組み合わせ、NCCNやESMOなど70以上の医師向けガイドラインに基づく回答生成を実現しています。患者データを外部クラウドに送信しない「Zero-PHIポリシーを掲げ、院内オンプレミス環境での完結運用を前提に設計されています。

モデルは症例の複雑さに応じて2段階に分かれます。加重スコアリングにより、ステージIVや複数遺伝子変異を伴う高難度症例は27Bパラメータの深層推論モデル(Tier 2)へ、それ以外は9Bパラメータの高速トリアージモデル(Tier 1)へ自動ルーティングされます。いずれもQwen系モデルをベースに、QLoRAで微調整されています。

学習には実症例と合成データを合わせた26万6,854件のOncoCoTコーパスが使われました。AMD Instinct MI300X(192GB HBM3)上でUnslothフレームワークとシーケンスパッキングを活用し、当初5時間と見積もられた学習を約50分に短縮しています。合成データ生成もAPI経由の毎時120件に対し、MI300X上では毎時6,800件と56倍の速度を達成しました。

安全面では、検索ゲート・信頼度ゲート・リフレクション批評・人間介入(HITL)の4層構造を採用しています。批評ノードはLLMではなく決定的コードで動作するため、敵対的プロンプトによる安全機構の迂回を防ぎます。RAGパイプラインでは、コサイン距離0.10を閾値とする反幻覚ポリシーにより、ドメイン外の入力には推奨を一切生成しない設計です。

現時点での課題として、学習データの約36%が合成症例であり、腫瘍専門医による大規模な精度検証はまだ実施されていません。ガイドラインも主に英語のNCCNが対象で、ESMOや他言語の臨床資料への対応は今後の課題です。コード・アダプタ重み・合成コーパスはHugging FaceGitHubで公開予定とされています。

Anthropic、エージェント記憶・評価・連携を統合し企業ツール市場に攻勢

3つの新機能の概要

Dreamingでセッション間の記憶を自律学習
Outcomesで評価基準を実行層に内蔵
リードエージェントがタスクを分割委任

企業への影響

LangGraphやCrewAI等の独立ツールと直接競合
フルホスト型でデータ居住地のコンプライアンス懸念
ベンダーロックインのリスクが拡大

導入判断の分岐点

実験段階の企業は移行が容易
本番運用中の企業は並行評価が必要

Anthropicは、Claude Managed Agentsの発表からわずか数週間で、エージェント基盤を大幅に拡張する3つの新機能を追加しました。Dreaming(記憶の自律的学習)、Outcomes(成果評価の内蔵)、Multi-Agent Orchestration(複数エージェントの協調実行)の3機能で、従来は個別ツールで構築していたインフラ層を単一ランタイムに集約します。

Dreamingは、エージェントが複数セッションの経験を振り返り、記憶を取捨選択して未知のパターンを発見する仕組みです。従来のRAGアーキテクチャではベクトルDBに埋め込みを保存し関連コンテキストを取得していましたが、Dreamingではエージェント自身がセッション間で記憶を能動的に書き換え、過去の失敗から学習します。Outcomesは、エージェントの成功基準をルーブリックとして定義し、外部の品質チェックではなくオーケストレーション層内で評価を完結させます。

Multi-Agent Orchestrationは、リードエージェントがタスクを分解し他のエージェントに委任する機能で、LangGraphCrewAIMicrosoft等のオーケストレーションフレームワークと正面から競合します。Anthropicは、モデル層にオーケストレーションを統合することでチームの制御性が向上すると主張しています。

一方で、企業側にはいくつかの懸念があります。Claude Managed Agentsはフルホスト型ランタイムのため、記憶やオーケストレーションが自社管理外のインフラで実行されます。データ居住地の証明が求められる組織にとっては、コンプライアンス上の障壁となり得ます。また、既に大規模なAI変革を進行中の企業は、既存のワークフローを容易に置き換えられない制約があります。

Anthropicはこの動きが業界全体の方向性を示すと明言しています。他のモデルプロバイダーも同様に、ツールとオーケストレーション基盤をモデル層に統合する製品戦略に移行すると予測されます。モデル自体は交換可能になっても、ツールとオーケストレーション基盤は交換が難しいため、プラットフォーム選択が長期的なロックインに直結する構造です。企業は自社のエージェント成熟度に応じて、統合プラットフォームへの移行か柔軟なモジュラー構成の維持かを早期に判断する必要があります。

Gemini APIファイル検索、画像とメタデータに対応

マルチモーダルRAGの実現

画像とテキストの同時検索が可能に
Gemini Embedding 2モデルで画像を直接理解
自然言語での視覚的スタイル検索に対応
前処理不要でマルチモーダルデータを統合

精度と信頼性の強化

カスタムメタデータでフィルタリング精度向上
キーバリュー型ラベルでデータを構造化
ページ単位の引用で出典を明示
大規模PDFでもファクトチェックが容易に

Googleは2026年5月5日、Gemini APIのFile Search機能を大幅に拡張し、マルチモーダルデータを扱えるRAGシステムの構築を可能にしたと発表しました。従来はテキストのみだった検索対象が画像にも広がり、カスタムメタデータやページ単位の引用機能も新たに追加されています。

Gemini Embedding 2モデルを活用した新しいFile Searchでは、画像とテキストを同時に処理できます。たとえばクリエイティブエージェンシーが、キーワードやファイル名ではなく自然言語で「特定の感情やビジュアルスタイル」を記述して画像アーカイブを検索するといった用途が想定されています。

カスタムメタデータ機能により、非構造化データにキーバリュー形式のラベルを付与できるようになりました。department: Legalstatus: Finalのようなフィルタをクエリ時に適用することで、無関係なドキュメントからのノイズを削減し、検索速度と精度の両方を改善します。

ページ引用機能は、大規模PDFから抽出された回答の出典をページ番号レベルで特定します。ユーザーが回答の根拠を即座に確認でき、ファクトチェックが必要な業務での信頼性を大きく高めます。

すでに複数の企業が早期導入を進めています。AI共同研究プラットフォームのK-Denseは科学画像の混合モーダル検索で高い精度を確認し、GIF検索のKlipyはテキスト内画像の理解精度向上とハルシネーション排除を評価しています。

Pinecone、RAG代替の知識基盤Nexus発表

Nexusの技術構成

推論前にデータをコンパイルする新手法
タスク特化型知識アーティファクトの生成
エージェント向け宣言型言語KnowQLの提供
フィールド単位の引用と決定論的な競合解決

RAGの限界と市場動向

エージェントの計算の85%が再探索に消費
ハイブリッド検索志向が33.3%に急増
検索最適化投資が評価支出を初めて上回る

企業導入への示唆

コスト・ガバナンス・セキュリティの制御が鍵
監査可能な知識パイプラインが本番運用の条件

ベクトルデータベース大手のPineconeは2026年5月4日、エージェントAI向けの新たな知識エンジン「Nexus」を発表しました。従来のRAG検索拡張生成)パイプラインがエージェントAIの要件に適合しないという課題に対応するもので、同日からアーリーアクセスを開始しています。VentureBeatの2026年第1四半期調査によると、単体ベクトルデータベースはすべて採用シェアを落とし、ハイブリッド検索志向は33.3%に達しています。

Nexusの中核は「コンテキストコンパイラ」です。従来のRAGでは推論時に毎回データの解釈・構造化を行いますが、Nexusはエージェントがクエリを発行する前のコンパイル段階で一度だけ推論を実行し、再利用可能な知識アーティファクトとして保存します。同じデータ基盤から営業エージェントにはCRM文脈を、財務エージェントには契約・請求文脈を、それぞれタスクに最適化した形で提供します。

さらにPineconeはエージェント専用の宣言型クエリ言語「KnowQL」を同時リリースしました。意図、フィルタ、出典、出力形式、信頼度、レイテンシ予算の6つのプリミティブにより、エージェントが構造化された応答と根拠を単一インターフェースで指定できます。PineconeのCEO Ash Ashutosh氏は、KnowQLがリレーショナルデータベースにおけるSQLと同様の構造的ギャップを埋めるものだと説明しています。

Pineconeの社内ベンチマークでは、ある金融分析タスクで従来280万トークンを消費していた処理がNexusではわずか4,000トークンで完了し、98%の削減を達成しました。ただし顧客の本番環境での検証はまだ行われていません。同社はエージェントの計算処理の85%がセッションごとのデータ再探索に費やされていると推計しており、これがコスト膨張と非決定論的な結果の根本原因だと指摘しています。

アナリストの評価は慎重ながらも前向きです。HyperFRAME ResearchのStephanie Walter氏は「知識コンパイルをインフラ層として製品化した点が真の革新」と評価しつつ、RAGの完全な再発明ではなく進化だと位置づけています。GartnerのArun Chandrasekaran氏は「単純な検索から高度な推論への重要な飛躍」と述べました。一方で企業の導入判断においては、性能指標よりもコスト管理・ガバナンス・セキュリティの制御が決定要因になるとの見方が示されています。

LlamaIndex CEOが語る「足場崩壊」後の戦略

足場レイヤーの崩壊

RAGフレームワークの必要性低下
LLMが非構造データを直接処理
MCPで統合が簡素化
コード生成の95%がAI製

コンテキストが新たな堀

ファイル形式の解析精度が競争力に
OCR文書処理が差別化の鍵
モジュール性と柔軟性の維持が必須

LlamaIndexの共同創業者兼CEOであるJerry Liu氏は、LLMアプリケーション開発に必要だったインデックス層やクエリエンジン、検索パイプラインなどの「足場レイヤー」が崩壊しつつあると語りました。モデルの進化により、開発者がこれらの決定論的ワークフローを軽量に構築するためのフレームワークの必要性は薄れています。

その背景には、LLMの推論能力の急速な向上があります。最新モデルは大量の非構造化データを人間以上の精度で処理でき、自己修正やマルチステップの計画立案も可能です。MCP(Modern Context Protocol)やClaude Agent Skillsにより、ツールの発見・利用が個別統合なしで実現されるようになりました。エージェントのパターンは「マネージドエージェント」構成に収斂しています。

Liu氏はさらに、コーディングエージェントの発達により開発者の作業自体が変質していると指摘します。LlamaIndexのコードの約95%はAIが生成しており、「エンジニアは実際のコードを書いていない。自然言語で入力している」と述べました。プログラマーと非プログラマーの境界が消えつつあるといいます。

では足場が崩壊した後に何が残るのか。Liu氏の答えはコンテキストです。エージェントがファイル形式を解読し正確な情報を抽出する能力が差別化要因になるとし、LlamaIndexOCRによるエージェント型文書処理でこの領域に注力しています。「OpenAI CodexでもClaude Codeでもどちらでもよい。すべてが必要とするのはコンテキストだ」と同氏は強調しました。

一方でLiu氏は、特定のフロンティアモデルへの依存リスクにも警鐘を鳴らしています。スタックのモジュール性を保ち、技術的負債を排除し、モデルリリースごとに最適な選択肢へ柔軟に移行できる体制を整えることが企業に求められると述べました。スタックの一部は必然的に廃棄される前提で設計すべきだとしています。

企業RAGの検索再構築が本格化、ハイブリッド検索の導入意向が3倍に

検索アーキテクチャの転換

ハイブリッド検索意向が10%から33%に急増
単独ベクトルDBの採用シェア低下
カスタムスタックが35.6%に拡大
検索最適化が投資優先度の首位に

評価基準の高度化

回答正確性・検索精度・回答関連性が同率に収束
回答関連性が唯一上昇した評価指標
ロングコンテキストは15.5%から6.7%に後退
本番RAG未導入企業も22%に増加

VentureBeatの調査「VB Pulse」によると、2026年第1四半期に企業のハイブリッド検索導入意向が10.3%から33.3%へと3倍に急増しました。従業員100人以上の企業を対象に毎月45〜58件の有効回答を得た調査で、企業がRAG検索拡張生成)の検索レイヤーを追加するフェーズから、既存アーキテクチャを再構築するフェーズへ移行していることが明らかになっています。

ハイブリッド検索とは、ベクトル類似検索にキーワード検索やリランキング層を組み合わせる手法です。単一手法のRAGパイプラインでは対応しきれなかった検索精度とアクセス制御の課題を解決するもので、エージェント型AIワークロードの本番運用に不可欠とされています。一方、Weaviate・Milvus・Pinecone・Qdrantといった単独ベクトルDBは四半期を通じて採用シェアを落としました。

投資優先度にも変化が見られます。評価・関連性テストは1月の32.8%から3月の15.6%へ低下し、代わりに検索最適化が19.0%から28.9%へ上昇して初めて首位に立ちました。HyperFRAME ResearchのSteven Dickens氏は「データチームはフラグメンテーション疲れに疲弊している」と指摘し、ベクトルストア・グラフDB・リレーショナルシステムを別々に管理する運用負荷の問題を挙げています。

検索システムの評価基準も高度化しています。1月には回答正確性が67.2%で突出していましたが、3月には回答正確性・検索精度・回答関連性がいずれも53.3%で収束しました。正しい答えだけでなく、適切な文脈から検索されたかを問う段階へ企業が進んでいることを示しています。

RAGは終わった」という議論についても、調査データは明確な回答を示しています。ロングコンテキストウィンドウが検索を不要にするという見方は、1月の15.5%から2月に3.5%まで急落しました。Databricksの主任AIサイエンティストJonathan Frankle氏は、数百万件のエントリを持つベクトルDBがエージェント型メモリスタックの基盤にあり、コンテキストウィンドウだけでは置き換えられないと説明しています。RAGそのものではなく、最初に構築されたアーキテクチャが否定されているのです。

RAG精度チューニングで検索精度が最大40%低下、Redis研究が警告

埋め込みモデルの構造的限界

構文感度の訓練が汎用検索を破壊
否定・語順反転で意味が逆転しても近傍に配置
大規模モデルへの拡張では根本解決不可
回帰は本番環境まで検出されにくい

既存手法の限界と2段階修正

ハイブリッド検索やMaxSimも構造的誤りに無力
クロスエンコーダは精度高いが本番規模で破綻
2段階方式: 検索後にTransformer検証器で精度担保
レイテンシ増加は不可避、用途別の判断が必要

Redisの研究チームが、RAGパイプラインにおける埋め込みモデルの精度チューニングが、汎用的な検索精度を最大40%低下させる可能性があることを明らかにしました。論文「Training for Compositional Sensitivity Reduces Dense Retrieval Generalization」は、構文的に類似しているが意味が異なる文を識別する訓練が、広範なトピックにわたる検索性能を著しく損なうことを実証しています。この問題は特にエージェント型AIパイプラインにおいて深刻で、検索エラーが下流の推論チェーン全体に連鎖的な誤りを引き起こします。

問題の根本は、埋め込みモデルが文全体を高次元空間の単一ベクトルに圧縮する仕組みにあります。「犬が人を噛んだ」と「人が犬を噛んだ」のように、単語が同じでも構造が異なる文は同じ近傍に配置されてしまいます。構文感度を高める訓練を行うと、モデルは汎用的な検索に使っていた表現空間を消費し、2つの目的が同一ベクトル上で競合します。

研究チームは、ハイブリッド検索MaxSimリランキング、クロスエンコーダ、コンテキストメモリといった既存の代替手法をすべて検証しましたが、いずれも構造的な誤りの検出には不十分でした。キーワード検索は同じ単語を含む文の構造差を判別できず、MaxSimは関連性と同一性という異なる目的を混同します。クロスエンコーダは精度は高いものの、本番規模のクエリ量には耐えられません。

研究が検証した解決策は2段階アーキテクチャです。第1段階では従来通りの密ベクトル検索で候補を幅広く取得し、第2段階で小型の学習済みTransformerモデルがトークンレベルで構造的不一致を検出します。この検証器は、否定反転や役割逆転といった単一ベクトル方式が見逃す失敗パターンを、他のどの手法よりも確実に捕捉しました。

Redis AI研究リーダーのSrijith Rajamohan氏は、RAG自体は依然として有効なアーキテクチャだが、精度が求められるワークロードでは単一段階のパイプラインを本番対応と見なすべきではないと強調しています。2段階方式はレイテンシの増加を伴うため、法務・会計など精度重視の用途では完全検証を、汎用検索では軽量な検証を選択するというトレードオフの判断が求められます。この手法はRedisのLangCache製品への組み込みが計画されていますが、現時点では未提供です。

MIT、数学五輪3万問超のデータセット公開

MathNetの概要

47カ国143大会から3万問超を収録
17言語対応で既存の5倍規模
公式問題集から専門家の解答を収集
学生とAI研究者の双方に無償公開

AIの弱点を浮き彫りに

GPT-5でも正答率は約69%
図形問題で性能が大幅に低下
モンゴル語問題でOSSモデルが全滅
類似問題の検索精度はわずか5%

MITのCSAIL、KAUST、HUMAINの研究チームは2026年4月24日、数学オリンピックレベルの証明問題を集めた世界最大のデータセット「MathNet」を公開しました。47カ国・143大会から収集した3万問超の問題と解答を含み、17言語に対応しています。同種のデータセットとしては既存最大の5倍の規模です。成果はブラジルで開催されるICLR 2026で発表されます。

従来のデータセットは米国中国の大会に偏っていましたが、MathNetは6大陸にまたがる公式大会の問題集を網羅しています。1,595件のPDF資料・計2万5000ページ以上を追跡し、数十年前のスキャン文書まで含めて収録しました。問題と解答はすべて専門家が執筆・査読したもので、複数の解法が示されるケースも多く、AIの数学推論の学習に質の高い信号を提供します。

AIモデルのベンチマークとしても重要な知見をもたらしています。最高性能のGPT-5でも6,400問のベンチマークで正答率は約69.3%にとどまり、約3問に1問を解けませんでした。図形を含む問題では全モデルで精度が大幅に低下し、視覚的推論が一貫した弱点であることが判明しました。また複数のオープンソースモデルはモンゴル語の問題で正答率0%を記録しています。

さらに類似問題の検索ベンチマークでは、最先端の埋め込みモデル8種を評価した結果、初回で正しい類似問題を特定できた割合はわずか約5%でした。検索拡張生成の実験では、関連性の高い問題を与えるとDeepSeek-V3.2-Specialeの正答率が最大12ポイント向上する一方、無関係な問題の提示は約22%のケースで性能を低下させました。

筆頭著者のShaden Alshammari氏はIMO出場経験を持ち、「多くの国で独力で大会準備をしている学生がいる。質の高い問題と解答を一カ所に集めたかった」と語っています。データセットはIMO財団とも共有される予定で、mathnet.csail.mit.eduから誰でもアクセスできます。

Gemini Embedding 2が正式版に昇格

マルチモーダル埋め込み

テキスト・画像動画音声に対応
複雑なパイプラインを統合可能
EC検索動画分析で実証済み

提供と今後の展開

Gemini APIとVertex AIで利用可能
本番環境向けの安定性を確保
Google製品の基盤技術を外部開放

Googleは2026年4月22日、マルチモーダル埋め込みモデルGemini Embedding 2の一般提供(GA)を開始しました。プレビュー期間中にEC向け検索エンジンや動画分析ツールなど多数のプロトタイプが構築されており、今回の正式版ではこれらを本番環境へ移行するための安定性と最適化が施されています。

Gemini Embedding 2の最大の特徴は、テキスト・画像動画音声をネイティブに扱えるマルチモーダル対応です。従来はモダリティごとに個別のパイプラインを構築する必要がありましたが、単一モデルで横断的な検索推論が可能になります。これにより、開発者は複雑なインフラ構成を大幅に簡素化できます。

提供チャネルはGemini APIVertex AIの2系統です。個人開発者から大規模エンタープライズまで、既存のGoogle Cloudワークフローに統合しやすい設計となっています。

同モデルはGoogleの各種プロダクトを支える基盤技術であり、社内で蓄積された研究成果を外部の開発者コミュニティにも開放する位置づけです。RAGやセマンティック検索を構築する際の選択肢として、マルチモーダル対応の埋め込みモデルが正式版で利用できる意義は大きいといえます。

Databricks、マルチステップAIエージェントが単発RAGを21%上回ると実証

研究の核心的発見

単発RAG構造化・非構造化データの横断に失敗
より強力なモデルでもエージェント21%劣後
性能差はモデル品質でなくアーキテクチャの問題

Supervisorエージェントの仕組み

SQLとベクトル検索並列実行
失敗検知と自動クエリ再構成
宣言的設定でカスタムコード不要

企業への示唆

5〜10データソースで段階的拡張を推奨
データソース追加は設定作業のみで完結

DatabricksのAI研究チームは、マルチステップ型のAIエージェントが従来の単発RAG検索拡張生成)を大幅に上回るという研究成果を発表しました。スタンフォード大学のSTaRKベンチマークで9つの企業向け知識タスクを検証した結果、マルチステップエージェントは単発RAGに対して20%以上の精度向上を示しています。売上データと顧客レビューのように、構造化データと非構造化データをまたぐ質問に対し、単発RAGが根本的に対応できないことがその背景にあります。

研究の最も重要な発見は、この性能差がモデルの品質ではなくアーキテクチャに起因するという点です。Databricksが最新の高性能基盤モデルで既存のSTaRKベースラインを再実行したところ、それでもマルチステップエージェントに対して学術領域で21%、生物医学領域で38%劣る結果となりました。つまり、より賢いモデルを使うだけでは、構造化・非構造化データの横断的な質問を解決できないことが示されています。

Databricksが構築したSupervisorエージェントは、3つの中核機能で従来のRAGの限界を克服します。第一に、SQLクエリとベクトル検索を並列に実行し、結果を統合してから次のアクションを決定します。第二に、初回の検索が失敗した場合に自動的にクエリを再構成して別のアプローチを試みる自己修正機能を備えています。第三に、新しいデータソースの接続に必要なのは自然言語による説明文の記述だけで、カスタムコードは不要です。

研究責任者のMichael Bendersky氏は「RAGは機能するが、スケールしない」と指摘しています。従来のカスタムRAGパイプラインでは、SQLテーブルのフラット化やJSONの正規化など、新しいデータソースごとに変換作業が必要でした。一方、宣言的なエージェントフレームワークであれば、各データソースをネイティブな形式のまま問い合わせることが可能です。「エージェントをデータのもとへ持っていくだけでいい」とBendersky氏は述べています。

企業への実務的な示唆として、構造化データと非構造化データをまたぐ質問が必要な場合、カスタムRAGパイプラインの構築よりもエージェント型アーキテクチャの採用が有利であることを研究は示しています。ただし、データソースは5〜10個で段階的に拡張し、各段階で結果を検証することが推奨されます。また、エージェントはフォーマットの不一致を処理できますが、元データの事実誤認までは修正できないため、データ品質の確保が前提条件となります。

Hugging Face、画像音声動画の埋め込みに対応

v5.4の新機能

マルチモーダル埋め込み追加
画像音声動画共有空間
リランカーも多モーダル対応
同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合
2BはVRAM8GBから動作
processor_kwargsへ名称変更

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像音声動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索RAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー(CrossEncoder)も多モーダル化され、テキスト・画像動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

LangChainとMongoDBがAIエージェント基盤で戦略提携

統合プラットフォームの全容

Atlas上でベクトル検索・状態管理を一元化
自然言語からMongoDB問い合わせを自動生成
LangSmithエージェント全工程を可視化

導入企業の活用事例

Kai Securityが1日で本番運用を実現
Fortune 500企業が金融・医療分野で採用
コンプライアンスや顧客対応を自動化

オープンな設計思想

LLMプロバイダー・クラウド自由に選択可能
LangGraph等の主要コンポーネントはOSS公開

LangChainMongoDBは2026年3月、AIエージェントの開発から本番運用までを単一プラットフォームで完結させる戦略的パートナーシップを発表しました。6万5000社以上が利用するMongoDB Atlas上にエージェント基盤を構築する統合ソリューションです。

統合の中核は、Atlas Vector SearchによるRAG検索拡張生成の実装です。セマンティック検索、ハイブリッド検索、GraphRAGを単一のMongoDBデプロイメントから実行でき、ベクトルデータと業務データを同じ基盤で管理するため、同期処理や二重管理の負担がなくなります。

MongoDB Checkpointerエージェントの状態をMongoDBに永続化する仕組みで、会話履歴の保持、障害からの自動復旧、任意時点への巻き戻しデバッグが可能です。LangSmithデプロイメント環境で設定するだけで、アプリケーションデータと同じデータベースにエージェントの状態が保存されます。

Text-to-MQL機能では、自然言語をMongoDBクエリ言語に自動変換し、エージェントが業務データに直接アクセスできます。「過去30日間の配送遅延注文を表示」といった質問を、カスタムAPIなしで処理できるため、開発工数を大幅に削減できます。

サイバーセキュリティ企業のKai Securityは、この統合により1日で本番デプロイを達成しました。従来は別途データベース層の構築に1カ月を要していた作業が、既存のMongoDB基盤上で一時停止・再開、障害復旧、監査証跡を即座に実装できたとしています。

LangChain CEOのHarrison Chase氏は「MongoDBの顧客はプロトタイプから本番エージェントまで、既存インフラを離れずに完結できる」と述べています。全統合機能は即日利用可能で、AWS・Azure・GCPのマルチクラウドに対応し、主要コンポーネントはオープンソースとして公開されています。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

清華大学発IndexCache、長文LLM推論を最大1.82倍高速化

スパース注意の課題

自己注意機構の二乗計算量が壁
DSAのインデクサ自体に冗長計算が残存
長文プロンプトプリフィル遅延が深刻化

IndexCacheの仕組み

隣接層間で選択トークンが70〜100%一致
少数のF層のみインデクサを実行し結果をキャッシュ
75%のインデクサ削除で精度維持

導入効果と展望

20万トークンでプリフィル1.82倍高速化
RAG等の長文処理でコスト約20%削減

清華大学とZ.aiの研究チームは、スパース注意機構の冗長計算を最大75%削減する新技術IndexCacheを発表しました。20万トークンの長文コンテキストにおいて、最初のトークン生成までの時間を最大1.82倍、生成スループットを1.48倍高速化する成果を示しています。

大規模言語モデルの自己注意機構は、文脈長に対して二乗の計算量が必要となり、長文処理のボトルネックとなっていました。DeepSeek Sparse Attention(DSA)はコア注意の計算量を線形に削減しましたが、各層のインデクサモジュール自体が依然として二乗計算を行っており、長文になるほど処理時間が急増する問題が残っていました。

研究チームは、DSAモデルにおいて隣接するトランスフォーマー間でインデクサが選択するトークンの70〜100%が共通であることを発見しました。この冗長性を活用し、少数の「F層」でのみインデクサを実行して結果をキャッシュし、残りの「S層」ではキャッシュを再利用する手法を開発しました。

GLM-4.7 Flash(300億パラメータ)での実験では、75%のインデクサを削除してもプリフィル遅延が19.5秒から10.7秒に短縮されました。推論品質も維持され、長文ベンチマークでは原版とほぼ同等のスコアを記録しています。7440億パラメータのGLM-5でも10万トークン超で1.3倍以上の高速化が確認されました。

企業導入においては、RAGや文書分析、エージェントパイプラインなどの長文処理で約20%のコスト削減が見込まれます。vLLMやSGLang向けのオープンソースパッチGitHubで公開されており、既存の推論基盤に最小限の設定変更で統合可能です。研究チームは、将来のモデル設計において推論効率が設計段階から考慮される方向性を示唆しています。

英研究チームがAIエージェント記憶技術xMemoryを開発、トークン消費半減

従来RAGの限界

会話記憶に未対応の設計
類似チャンク大量取得で冗長化
時系列依存の文脈を誤削除

xMemoryの階層構造

4層意味階層で会話を整理
不確実性ゲートで取得量を制御
トークン数約9000→4700に削減

導入判断の指針

長期対話型業務に最適
文書検索用途は従来RAGで十分

キングス・カレッジ・ロンドンとアラン・チューリング研究所の研究チームは、AIエージェントの長期記憶管理技術「xMemory」を開発しました。従来のRAGパイプラインが抱えるマルチセッション対話での冗長性問題を解決し、トークン使用量を大幅に削減します。

従来のRAGは大規模な文書データベース向けに設計されており、会話記憶のような相関性の高いデータストリームには不向きです。類似した埋め込みベクトルを持つチャンクが大量に取得され、重要な文脈情報が埋もれてしまいます。さらに会話特有の時系列依存性により、後処理での枝刈りが必要な情報まで削除するリスクがあります。

xMemoryは会話データを「生メッセージ→エピソード→セマンティクス→テーマ」の4層階層に整理します。検索時はテーマ層から下位層へトップダウンで探索し、「不確実性ゲーティング」により回答精度の向上に寄与する場合のみ詳細データを取得します。これにより冗長な情報の取得を根本的に防ぎます。

実験では、オープンモデル・クローズドモデル双方でxMemoryが既存手法を上回る精度を達成しました。一部タスクではクエリあたりのトークン消費が約9,000から約4,700に半減し、推論コストの大幅な削減を実現しています。ただし階層構造の構築にはバックグラウンドでの追加LLM呼び出しが必要であり、書き込みコストとのトレードオフが存在します。

研究者のLin Gui氏は、カスタマーサポートやパーソナライズドコーチングなど数週間〜数カ月にわたる一貫した対話が求められる業務での活用を推奨しています。一方、ポリシー文書や技術マニュアルの検索には従来のRAGで十分とのことです。コードはMITライセンスGitHubに公開されており、商用利用も可能です。

Google、AI推論メモリを6分の1に圧縮するTurboQuantを公開

TurboQuantの技術

KVキャッシュを6分の1に圧縮
演算性能は8倍に向上
極座標変換のPolarQuantが基盤
1ビットQJLで誤差を補正

企業への影響

推論コスト50%以上削減の可能性
再学習不要で既存モデルに即適用
メモリ半導体株に下落圧力
ローカル実行の民主化が加速

Google Researchは2026年3月25日、大規模言語モデルの推論時に肥大化するKVキャッシュを極限まで圧縮するアルゴリズム群「TurboQuant」を公開しました。メモリ使用量を平均6分の1に削減し、注意計算の性能を8倍に高めることで、企業の推論コストを50%以上削減できる可能性があります。

TurboQuantは二段階の数学的手法で構成されています。第一段階のPolarQuantはベクトルを極座標に変換し、ランダム回転後の角度分布が予測可能になる性質を利用して、従来必要だった正規化定数のオーバーヘッドを排除します。第二段階では1ビットのQJL変換が残留誤差をゼロバイアスで補正し、圧縮後も統計的に同等の注意スコアを維持します。

10万トークンの「Needle-in-a-Haystack」ベンチマークでは、Llama-3.1-8BMistral-7Bで非圧縮モデルと同等の完全な再現率を達成しました。コミュニティでも即座に検証が進み、MLXへの移植テストでは2.5ビット量子化でKVキャッシュを約5分の1に削減しつつ精度劣化ゼロが確認されています。

発表後、MicronやWestern Digitalなどメモリ半導体大手の株価に下落傾向が見られました。ソフトウェアだけでメモリ需要を6分の1にできるとの見方が市場に広がった形ですが、効率化が利用拡大を招くジェヴォンズのパラドックスを指摘する声もあります。Cloudflare CEOは「GoogleDeepSeekモーメント」と評しました。

企業にとっての最大の利点は、再学習なしで既存の微調整済みモデルにそのまま適用できる点です。推論サーバーのGPU台数削減、長文コンテキストRAG活用拡大、オンプレミスでの大規模モデル運用が現実的になります。ただし現時点では研究段階であり、トレーニング時のメモリ問題は対象外である点には留意が必要です。

AIエージェント本番運用を阻む3つの壁と克服手法

本番運用の障壁

データ分散と統合の困難さ
暗黙知依存の業務プロセス
レガシーAPIの不完全な対応

3つの実践手法

データ仮想化で統合遅延を回避
ダッシュボードとKPIで管理層構築
限定スコープで段階的に自律性向上

導入の最適解

高頻度・リスク業務から着手
サブエージェント分割で複雑タスク対応

CreatioのBurley Kawasaki氏らが、AIエージェントをデモから本番運用へ移行させるための3つの規律を提唱しました。データ仮想化、エージェント管理ダッシュボード、限定スコープの運用ループがその柱です。

企業がエージェント導入で最初に直面する壁はデータの分散です。SaaS、社内DB、各種アプリに情報が散在し、構造化されていないケースも多く、エージェントが正確に情報を取得できない状況が生まれています。Greyhound ResearchのGogia氏は統合の難しさを指摘しています。

さらに深刻なのは暗黙知への依存です。従業員が経験則で例外処理を行っている業務は、自動化ロジックに変換すると抜け漏れが顕在化します。明文化されていないルールや判断基準が、エージェントエスカレーション率を押し上げる要因となっています。

Kawasaki氏のチームは段階的チューニング手法を採用しています。設計時のプロンプト最適化、運用中の人間によるレビューと修正、稼働後の継続的モニタリングという3段階で精度を高めます。単純な業務では80〜90%のタスクを自律処理できる水準に達しているといいます。

導入に最適なのは高頻度かつ構造化された業務です。書類の取り込みや検証、定型的な顧客接点などが該当します。金融機関では部門横断的なデータ分析により、数百万ドル規模の増収効果を得た事例もあると報告されています。

規制産業など複雑な業務では、単一プロンプトではなくオーケストレーション型の実行が必要です。サブエージェントに分割し、RAGで情報をグラウンディングしながら、数時間から数日かけてタスクを完遂する設計が求められます。モデルの再訓練は不要で、プロンプトワークフロー設計の改善で性能向上が可能です。

Mozilla開発者がAIエージェント向け知識共有基盤「cq」を発表

cqの基本構想

エージェントの知識共有基盤
古いAPI呼び出しなど誤情報を防止
既解決の問題を再利用しトークン節約

仕組みと課題

未知の作業前にcommonsへ問い合わせ
新知見を提案し他エージェント検証
利用実績で信頼度を蓄積
セキュリティとデータ汚染が課題

Mozilla開発者ピーター・ウィルソン氏は、AIコーディングエージェント向けの知識共有プラットフォーム「cq」を発表しました。同氏はこれを「エージェント版Stack Overflow」と位置づけています。

現在のコーディングエージェントは、学習データの時期的な制約により、廃止済みのAPIを呼び出すなど古い情報に基づいた判断をしがちです。RAGなどの手法で最新情報を取得する場合もありますが、必要な場面で常に機能するわけではありません。

さらに、複数のエージェントが同じ問題に個別に取り組み、すでに解決済みの課題に対して大量のトークンとエネルギーを消費している現状があります。cqはこの非効率を解消し、一度得た知見を全エージェントで共有することを目指します。

cqの仕組みでは、エージェントが未知の作業に着手する前にcommonsと呼ばれる共有知識基盤に問い合わせます。たとえばStripe APIの特殊な挙動を別のエージェントが発見済みなら、その知見を即座に活用できます。新たな発見は提案として共有され、他のエージェントが有効性を検証します。

ただし、実用化に向けてはセキュリティ、データ汚染、正確性の担保が大きな課題です。現状ではclaude.mdなどの手動設定ファイルが主流ですが、cqはこれを自動化・体系化する試みとして注目されています。

VercelがベクトルDB不要のナレッジエージェント基盤を公開

ファイル検索の仕組み

ベクトルDB・埋め込み不要
grep/find/cat検索実行
Sandbox内でbash操作
デバッグ数分で完結
コスト75%削減の実績

マルチ展開と拡張性

Chat SDKで全平台対応
AI SDKとの深い統合
複雑度による自動ルーティング

管理機能

利用統計・エラーログ内蔵
AI管理エージェント自己診断

Vercelは、ベクトルデータベースや埋め込みモデルを使わずにナレッジエージェントを構築できるオープンソーステンプレート「Knowledge Agent Template」を公開しました。Vercel Sandbox、AI SDK、Chat SDKを組み合わせた構成で、ワンクリックでデプロイできます。

従来のRAGパイプラインでは、チャンキングや埋め込みモデルの選定、類似度スコアの調整に多大な工数がかかり、誤回答時のデバッグも困難でした。ベクトル検索では類似度0.82と0.79の差異の原因特定が難しく、障害対応が長期化する課題がありました。

新アーキテクチャでは、エージェントgrep・find・catといたファイルシステム操作で情報を検索します。LLMはコード学習を通じてディレクトリ操作に習熟しているため、この手法が有効です。社内の営業通話要約エージェントでは、コストが約1ドルから約0.25ドルに削減され、出力品質も向上しました。

Chat SDKにより、同一のナレッジベースをSlackDiscordGitHubMicrosoft Teamsなど複数プラットフォームに同時展開できます。各アダプターが認証やメッセージ形式の差異を吸収し、エージェント本体のコードは変更不要です。さらにAI SDKとの統合により、質問の複雑度に応じてモデルを自動選択するスマートルーティング機能も備えています。

テンプレートには管理画面が内蔵されており、利用統計、エラーログ、ユーザー管理、ソース設定を一元管理できます。さらにAI管理エージェントが搭載され、「過去24時間のエラー」や「よくある質問」を自然言語で問い合わせることが可能です。外部の監視ツールを別途導入する必要がありません。

IBM Research、構造化AIワークフロー基盤Mellea 0.4.0を公開

Mellea 0.4.0の新機能

Granite Librariesとネイティブ統合
制約付きデコードでスキーマ正確性を保証
指示・検証・修復パターンの導入
観測フックワークフロー監視が可能に

Granite Librariesの構成

granitelib-core:要件検証用アダプタ
granitelib-ragRAGパイプライン全工程対応
granitelib-guardian:安全性・事実性・コンプライアンス特化
granite-4.0-micro向けLoRAアダプタ

IBM Researchは2026年3月20日、オープンソースのPythonライブラリMellea 0.4.0と3つのGranite Librariesを同時公開しました。これにより、IBM Graniteモデル上で構造化・検証可能・安全性を備えたAIワークフローの構築が容易になります。

Melleeは確率的なプロンプト動作を、構造化された保守可能なAIワークフローに置き換えるライブラリです。制約付きデコードや構造化修復ループ、パイプラインの組み合わせにより、LLMベースのプログラムの予測可能性と保守性を高める設計思想を持っています。

バージョン0.4.0では、Granite Librariesとのネイティブ統合が実現しました。制約付きデコードに基づく標準化APIを通じ、出力のスキーマ正確性を保証します。さらにリジェクションサンプリング戦略による指示・検証・修復パターンや、イベント駆動型コールバックによる観測フックも導入されました。

同時公開されたGranite Librariesは、granite-4.0-microモデル向けの特化型LoRAアダプタ群です。granitelib-coreは要件検証、granitelib-rag検索前・検索後・生成後のRAGタスク、granitelib-guardianは安全性・事実性・ポリシー準拠の各領域をカバーします。

汎用プロンプティングに頼らず、タスク特化型アダプタを用いることで、少ないパラメータコストで各タスクの精度を向上させつつ、ベースモデルの能力を損なわない点が特長です。コードと論文はHugging FaceおよびGitHubで公開されており、すぐに導入を開始できます。

NVIDIA、1日で専用埋め込みモデルを構築するレシピ公開

手法と成果

GPU1台・1日未満で完結
ラベル不要の合成データ生成
ハードネガティブマイニング採用
Recall・NDCG@10が10%以上改善

企業実績と展開

AtlassianがJiraで検証済み
Recall@60が0.751→0.951に向上
NIMOpenAI互換API展開
6コマンドで全工程実行可能

NVIDIAは2026年3月20日、汎用埋め込みモデルを特定ドメインに最適化するファインチューニングレシピを公開しました。GPU1台と1日未満の学習時間で、手動ラベリング不要で高品質なドメイン特化型埋め込みモデルを構築できます。

本レシピの核心は、LLMを使った合成データ生成パイプラインです。ドメイン文書をLLMに読み込ませ、複雑さの異なる質問・回答ペアを自動生成します。マルチホップクエリにも対応し、複数文書にまたがる推論を学習データに反映できます。

学習効果を高めるため、ハードネガティブマイニングを導入しています。正解に近いが誤りである文書を特定し、モデルが微妙な違いを学習できるようにします。正解スコアの95%以上の候補は偽陰性の可能性があるため自動除外されます。

Atlassianは本レシピをJiraデータセットに適用し、Recall@60が0.751から0.951へと26.7%向上する成果を確認しました。数百万のRovoユーザーの検索精度が直接的に改善されています。

完成したモデルはONNXやTensorRTに変換後、NVIDIA NIMコンテナでOpenAI互換APIとして本番展開できます。既存のRAGパイプラインにコード変更なしで組み込める点が実用上の大きな利点です。

NVIDIA、投機的デコード統一ベンチマーク「SPEED-Bench」公開

ベンチマークの構成

11カテゴリ880プロンプトで意味的多様性を最大化
入力長1k〜32kトークンのスループット評価
TensorRT-LLM・vLLM・SGLang対応の統一計測基盤

主要な知見

コーディング数学は高受理率、ロールプレイは低受理率
語彙プルーニングで多言語・RAGの精度が大幅低下
ランダムトークンはスループットを約23%過大評価
ネイティブMTPがEAGLE3より高い受理長を達成
バッチサイズ増加でメモリ律速に移行しSD効果が変化

NVIDIAの研究チームは2026年3月、投機的デコード(SD)を統一的に評価するベンチマークSPEED-Bench」を公開しました。SDはドラフトモデルで複数トークンを先読みし、ターゲットモデルが並列検証することで推論を高速化する技術ですが、従来の評価手法は断片的で本番環境を反映していませんでした。

SPEED-Benchは「Qualitative分割」と「Throughput分割」の2つのデータセットで構成されています。Qualitative分割は18のデータソースから11カテゴリ・計880プロンプトを収録し、テキスト埋め込みによる選択アルゴリズムでカテゴリ内の意味的多様性を最大化しています。

Throughput分割は入力長1k〜32kトークンの固定バケットを用意し、各バケットに低・混合・高エントロピーの3難易度で計1,536プロンプトを収録しています。バッチサイズ最大512までの高並行環境で、本番に近いスループット評価が可能です。

評価の結果、SDの受理長はドメインに強く依存することが確認されました。コーディング数学などの低エントロピー領域では高い受理長を示す一方、ロールプレイや創作文は推測が困難です。また、ネイティブMTPヘッドはEAGLE3より大幅に高い受理長を達成し、ベースモデルとの共同学習の優位性が示されました。

さらに、ランダムトークンを用いた従来のベンチマーク手法は、SD有効時にスループットを約23%過大評価する問題が判明しました。MoEモデルでもエキスパートルーティングが不正確になるため、現実的なデータでの評価が不可欠です。データセットと計測フレームワークはオープンソースで公開されています。

DataRobotとNebiusがAIエージェント基盤で提携

共同基盤の特徴

AI Factoryで数日で本番化
Nebius GPU基盤で低遅延推論実現
トークン従量課金で実験コスト削減
50以上のNIMモデルをワンクリック展開

ガバナンスと運用

OpenTelemetry準拠の監視体制
OAuth 2.0とRBACによる統合認証
Workload APIで任意コンテナ展開
コンプライアンス自動レポート生成

DataRobotNebiusは、企業向けAIエージェントの開発・運用・ガバナンスを加速する共同ソリューション「AI Factory for Enterprises」を発表しました。従来数カ月かかっていたエージェントの本番化を数日に短縮することを目指します。

NebiusはAI専用設計GPUクラウド基盤を提供し、H100からGB300 NVL72まで最新のNVIDIA GPUを搭載しています。汎用クラウドで課題となる「ノイジーネイバー問題」を排除し、ベアメタル性能と予測可能なスループットを実現します。

DataRobotのAgent Workforce Platformは、LangChain・CrewAI・LlamaIndexなど主要フレームワークに対応し、MCPやマネージドRAGも標準搭載しています。独自のノードアーキテクチャツール(NAT)により、YAMLベースでエージェントを構造的に定義・テストできます。

ガバナンス面では、OpenTelemetry準拠のトレーシングによりエージェント実行パスの可視化を実現します。PII検出・プロンプトインジェクション防御・毒性検知などのガードレールを標準装備し、監視データから規制対応文書を自動生成する機能も備えています。

両社は2026年3月16〜19日にサンノゼで開催されるNVIDIA GTC 2026で本ソリューションを展示予定です。NebiusのToken Factoryによる従量課金モデルで実験段階のコストを抑え、本番移行時にはNIM専用デプロイへシームレスに切り替えられる点が、企業の段階的AI導入を後押しします。

Microsoft Fabric IQをMCP開放、全社エージェント共通基盤に

Fabric IQの主要拡張

MCP経由で他社エージェントに開放
業務オントロジーを共通コンテキスト
企業計画機能を統合し目標も照会可能に
Database Hubで5種のDBを一元管理

RAGとの役割分担

RAGは規定・文書のオンデマンド検索向き
リアルタイム業務状態はオントロジーが担当
記憶・検索・観測の認知モデルを提唱

課題と市場展望

統合工数の実質削減が普及の鍵
組織的対応が技術以上の障壁
セマンティック層が新たなインフラ責務に

Microsoftは2026年3月、データ基盤「Fabric」のセマンティック知能層Fabric IQを大幅に拡張し、業務オントロジーをMCP(Model Context Protocol)経由であらゆるベンダーのAIエージェントに開放すると発表しました。

企業内で複数のAIエージェントが異なるプラットフォーム上で稼働する現在、「顧客」「注文」「地域」といったビジネス用語の定義がエージェント間で食い違う問題が深刻化しています。Fabric IQはこの断片化を解消し、全エージェント共通のビジネスコンテキストを参照できる基盤を目指します。

Fabric CTO のアミール・ネッツ氏は、RAGが規定文書や技術資料の検索に適する一方、リアルタイムの業務状態(現在飛行中の航空機、クルーの休息時間など)にはオントロジーが不可欠だと説明しました。記憶・オンデマンド検索・リアルタイム観測を組み合わせる認知モデルが必要だと強調しています。

同時に発表されたDatabase Hubは、Azure SQL・Cosmos DB・PostgreSQL・MySQL・SQL Serverを単一の管理・監視レイヤーに統合するものです。IDCは2029年までに企業データ基盤の60%がトランザクションと分析のワークロードを統合すると予測しており、Microsoftの方向性は市場潮流と合致しています。

アナリストらは方向性を評価しつつも、MCP接続が実際に統合工数を削減できるか、またセマンティック層の信頼性・ガバナンスの確保が課題だと指摘しています。データエンジニアリングチームにとって、ビジネスオントロジーの構築・バージョン管理・運用が新たな責務となり、組織体制の整備が急務です。

Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

KVTCの技術概要

JPEG由来の変換符号化を応用
PCAでKVキャッシュの冗長性を除去
動的計画法で次元別にビット配分を最適化
GPUでエントロピー符号化を並列実行

性能と導入効果

20倍圧縮で精度低下1%未満
最初のトークン生成を最大8倍高速化
モデル重み変更不要で既存環境に導入可能

適用と今後の展望

長文脈・マルチターン用途に最適
vLLM互換のDynamoフレームワークに統合予定

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC(KV Cache Transform Coding)」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析(PCA)でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidianvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaAdrian Lancucki氏は、コーディングアシスタントエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。

ブリタニカ百科事典がOpenAIを著作権侵害で提訴

訴訟の主な主張

10万件の記事を無断学習
GPT-4が内容を丸暗記と主張
逐語的複製の出力例を提示
RAG経由の著作物利用も違法と指摘

業界への波及

NYTなど多数メディアが類似訴訟
Anthropic15億ドルで和解済み
Perplexityへの訴訟も係属中
AI学習の法的先例は未確立

ブリタニカ百科事典と辞書出版社メリアム・ウェブスターは2026年3月、OpenAIChatGPTの学習に著作権コンテンツを無断使用したとして、大規模な著作権侵害を訴える訴訟を提起しました。

訴状によると、OpenAIGPT-4はブリタニカの著作権コンテンツの多くを「暗記」しており、要求に応じてほぼ逐語的なコピーを出力するとされています。実際に訴状にはOpenAIの出力とブリタニカの原文が並べて掲載され、全文が一致する箇所が複数示されています。

さらにブリタニカは、ChatGPTが自社コンテンツ直接競合する回答を生成することでウェブトラフィックを奪い、従来の検索エンジンのようにユーザーを自社サイトに誘導しないと主張しています。またハルシネーションをブリタニカに帰属させる行為は商標法違反にも当たると訴えています。

この訴訟はAI企業に対する著作権訴訟の急増を反映しています。ニューヨーク・タイムズ、ジフ・デイビス、米国・カナダの十数紙がすでにOpenAIを提訴しており、Perplexityに対する同様のブリタニカ訴訟も係属中です。

法的には、著作権コンテンツをLLM学習に使うことが侵害に当たるかの明確な判例はまだ確立されていません。ただしAnthropicの訴訟では、連邦判事が学習データとしての利用自体は変容的使用と認めつつ、書籍の違法ダウンロードを問題視し、15億ドルの和解が成立しました。今後の判決がAI業界全体の方向性を左右する可能性があります。

DataRobotがNVIDIAと協業しAIエージェント基盤を強化

統合プラットフォーム

Nemotron 3 Superをワンクリック展開
GPU自動最適化で推論環境を構築
思考予算調整でコスト14倍削減も可能
マルチテナント制御で複数チーム同時利用

ガバナンスと認証

Okta連携エージェントにID付与
静的APIキーから短命トークンへ移行
EU AI Act等の規制準拠を自動化

ハードウェア基盤

RTX PRO 4500推論エンジンとして検証済み
32GB VRAMでオンプレミス展開にも対応

DataRobotは2026年3月、NVIDIAと共同開発したAgent Workforce Platformにおいて、大規模言語モデル「Nemotron 3 Super」のワンクリック展開機能を発表しました。企業がAIエージェントを本番環境で安全に運用するための統合基盤を提供します。

Nemotron 3 Superは1200億パラメータのハイブリッドMamba-Transformerモデルで、100万トークンのコンテキストウィンドウを備えています。DataRobotのプラットフォームでは、GPU構成の自動推奨、監視・アクセス制御の即時有効化、チーム別クォータ管理が標準で組み込まれており、展開直後から運用可能な状態になります。

コスト管理面では、思考予算の調整により同一モデルで精度とコストのトレードオフを制御できます。金融推論ベンチマークでは、最高設定で約86%の精度に対し、最低設定でも約74%を維持しつつトークン消費を14分の1に抑えられることが実証されました。

ガバナンス面では、Oktaとの統合により、AIエージェントを企業ディレクトリ上の独立したIDとして管理する仕組みを実現しました。従来の共有APIキーによる認証では、非決定的なエージェントの行動追跡や即時無効化が困難でしたが、ID基盤型ガバナンスにより人間と同一の管理体系でエージェントを統制できます。

ハードウェア面では、NVIDIA RTX PRO 4500をDataRobotプラットフォームの推論エンジンとして技術検証済みであることを発表しました。32GBのGDDR7メモリとBlackwellアーキテクチャを搭載し、リアルタイム物流最適化やRAGパイプラインなど、エージェント型ワークロードに最適化された性能を提供します。

Qdrant、エージェントAI向けベクトル検索で5000万ドル調達

資金調達と新版の狙い

シリーズBで5000万ドル調達
前回のシリーズAから2年で実施
v1.17エージェント対応強化
関連性フィードバッククエリを搭載

RAGからエージェントへの転換

エージェントは毎秒数千クエリを発行
コンテキストウィンドウでは検索代替不可
メモリ基盤も内部でベクトル検索を利用

本番環境での実証

GlassDollarがインフラ費用40%削減
特許訴訟AI企業&AI;が検索基盤に採用

ベクトル検索企業のQdrantは、シリーズBラウンドで5000万ドル(約75億円)の資金調達を発表しました。同時にプラットフォームのバージョン1.17をリリースし、AIエージェント時代の情報検索基盤としての地位を強化しています。

同社CEOのアンドレ・ザヤルニ氏は、人間が数分に数回のクエリを行うのに対し、エージェントは毎秒数百から数千のクエリを発行すると説明しています。この負荷はRAG時代の設計では対応できず、専用の検索インフラが不可欠だと主張しています。

v1.17では三つの課題に対応しています。関連性フィードバッククエリで再学習なしに検索精度を向上させ、遅延ファンアウト機能でレプリカの応答遅延を回避し、クラスタ全体のテレメトリAPIで運用監視を一元化しています。

導入企業のGlassDollarは、Elasticsearchからの移行でインフラコストを約40%削減し、ユーザーエンゲージメントが3倍に向上しました。特許訴訟AI企業の&AI;も、数億件の文書を対象とした意味検索基盤としてQdrantを採用しています。

ザヤルニ氏はQdrantを「ベクトルデータベース」ではなく「AI時代の情報検索レイヤー」と位置づけています。Rustで構築された高効率アーキテクチャとオープンソース戦略により、大手ベンダーとの差別化を図る方針です。

Google、初のマルチモーダル埋め込みモデル「Gemini Embedding 2」公開

対応モダリティと性能

テキスト・画像動画音声・PDFを統合
8192トークンの大規模コンテキスト対応
100言語以上の意味的理解が可能
テキスト/画像/動画で最高水準の精度

実装と活用事例

Gemini APIとVertex AIでパブリックプレビュー提供
Paramountの動画検索Recall@1が85.3%達成
Sparkonomy社でレイテンシを70%削減
LangChainLlamaIndex等の主要フレームワーク対応

Googleは2026年3月10日、Geminiアーキテクチャを基盤とした初の完全マルチモーダル埋め込みモデル「Gemini Embedding 2」をGemini APIおよびVertex AIでパブリックプレビューとして公開した。

同モデルはテキスト・画像動画音声・PDFドキュメントを単一の統一埋め込み空間にマッピングする。テキストは最大8192トークン、画像は1リクエスト最大6枚、動画は最大120秒に対応しており、RAGや意味検索、感情分析、データクラスタリングなど幅広いユースケースを簡素化する。

柔軟な出力次元を実現するMatryoshka Representation Learning(MRL)技術を採用しており、デフォルト3072次元から1536・768次元へと動的に削減できる。これにより開発者はパフォーマンスとストレージコストのバランスを最適化できる。

早期アクセスパートナーからは顕著な成果が報告されている。Paramount Skydanceは動画資産検索のRecall@1を85.3%に向上させ、Sparkonomy社はLLM推論を排除することでレイテンシを最大70%削減、テキスト・画像間の意味的類似度スコアを0.4から0.8へほぼ2倍に改善した。

同モデルはLangChainLlamaIndex・Haystack・Weaviate・Qdrant・ChromaDB・Vector Searchなど主要なフレームワークおよびベクターデータベースと統合可能であり、既存ワークフローへの最小限の変更での導入が可能だ。

Databricks、強化学習で万能型RAGエージェント「KARL」を開発

KARLの技術的革新

6種の検索行動を同時学習
合成データのみで人手ラベル不要
OAPLアルゴリズムで学習効率3倍
コスト33%減・遅延47%減を達成

企業RAGへの示唆

単一タスク最適化は他タスクで破綻
マルチタスクRLで未知タスクにも汎化
文脈圧縮をエンド・ツー・エンドで学習
SQL・ファイル検索今後の課題

Databricksは、強化学習を活用した企業向けRAGエージェントKARL(Knowledge Agents via Reinforcement Learning)」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。

従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。

学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。

注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。

一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェント強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。

Inception Mercury 2がVercel AI Gatewayで提供開始

Mercury 2の特徴

推論品質をリアルタイム遅延で実現
エージェント・コード補助・音声に最適
RAGパイプラインの遅延累積を解消

AI Gatewayの機能

統合APIでモデル呼び出しを一元管理
自動リトライとフェイルオーバー対応
オブザーバビリティ機能を標準搭載
自前APIキーの持ち込みに対応
プロバイダルーティングで高可用性確保

Inceptionが開発した大規模言語モデル「Mercury 2」が、VercelAI Gatewayを通じて利用可能になりました。AI SDKでモデル名を「inception/mercury-2」と指定するだけで呼び出すことができます。

Mercury 2の最大の特徴は、推論グレードの品質をリアルタイムの低遅延で提供できる点です。エージェントループやコーディングアシスタント音声インターフェースなど、応答速度が重要な用途に適しています。

特にRAGパイプラインのように複数のLLM呼び出しが連鎖する処理では、各ステップの遅延が累積してボトルネックとなります。Mercury 2はこの課題を低遅延性能で解決し、実用的な応答時間を維持します。

Vercel AI Gatewayは、複数のモデルプロバイダを統合APIで利用できるサービスです。使用量やコストの追跡、リトライ・フェイルオーバーの自動設定により、プロバイダ単体を上回る稼働率を実現します。

同サービスにはオブザーバビリティ機能やBYOK(自前キー持ち込み)サポートも組み込まれています。モデルのリーダーボードやプレイグラウンドも公開されており、導入前の比較検証が容易です。

SurrealDB 3.0がRAGを一元化

RAGアーキテクチャの簡素化

5種のDBを1つに統合
ベクター・グラフ・文書DB機能を内包
RAGスタックの複雑性解消

SurrealDB 3.0は、典型的なRAG検索拡張生成)スタックで必要とされる5種類のデータベース(ベクターDB、グラフDB、文書DB、リレーショナルDB、キャッシュ)を1つのシステムで代替することを目指しています。

複数のデータベースシステムの運用管理はエンジニアリングの複雑性とコストを増大させますが、SurrealDBはこれを統合型アーキテクチャで解決します。RAGシステムを構築する開発者にとって検討に値する選択肢です。

AIボットトラフィックの謎の急増がウェブを席巻、正体は不明

ボットトラフィック急増

説明不可能なボットトラフィックがウェブ全体に拡散
AIエージェントによる自律的ウェブ巡回が背景か
ウェブサイトの負荷増大と収益モデルへの影響

ウェブ全体で出所不明のボットトラフィックが急増していることが報告されています。このトラフィックの多くはAIエージェントやクローラーによるものと疑われていますが、その全容は解明されていません。

一部はLLMのトレーニングデータ収集、別の部分はRAGシステムのためのリアルタイム情報収集、そしてエージェントAIの自律的なウェブ操作など複数の要因が重なっていると考えられます。

この現象はウェブサイト運営者にとって深刻な課題です。広告収益と実際の人間ユーザー数の乖離、サーバーコストの増大、そして正当なトラフィックの判別が難しくなっています。

観測メモリ技術、エージェントコスト10分の1に

技術の概要

RAGを上回る長文性能
エージェントコストを90%削減
観測メモリという新手法

実用的な意義

長期実行エージェントに最適
ツール連携の効率化
本番システムへの適用可能

観測メモリ」と呼ばれる新手法が、AIエージェントのコストを従来の10分の1に削減し、長文コンテキストベンチマークRAGを上回る成果を示しました。

従来のRAGチャットボット向けには有効ですが、ツールを多用する長期実行エージェントでは速度と知性の面で限界がありました。この手法はその課題を解決します。

観測メモリはエージェントの行動や環境情報を効率的に蓄積・参照する仕組みです。明示的な検索ステップを省略できレイテンシが大幅に改善されます。

本番システムに組み込まれたエージェントでは、コスト削減と性能向上の両立が重要な課題です。この手法は実運用でのメリットが明確です。

RAGの代替・補完としての観測メモリは、エージェント開発者にとって重要な選択肢となる可能性があり、今後の研究動向が注目されます。

グラフデータベースをRAGパイプラインに統合する実践ガイドが公開

技術の詳細

グラフDB×RAGの統合方法
知識グラフで複雑な関係を表現
ベクトル検索との組み合わせ手法
多段推論が必要な質問に対応
DataRobotが実践ガイドを公開
Neo4j等の主要ツールを紹介

エンタープライズAIへの応用

複雑な業務知識の構造化
エンティティ関係の精緻な表現
検索精度の大幅向上

DataRobotは2026年2月6日、グラフデータベースをRAG検索拡張生成)パイプラインに組み込むための実践的な統合ガイドを公開した。

グラフデータベースはエンティティ間の複雑な関係性を表現するのに優れており、製品の部品構成、組織の関係図、法規制の依存関係などの「つながり」を持つデータに特に有効だ。

通常のベクトル検索(Pinecone、Weaviateなど)は類似性の検索に優れるが、多段推論(A→B→CのようなChain of Thought的な関係)には弱い。グラフDBはこれを補完する。

実装例としてNeo4j、ArangoDB、Amazon Neptuneとの統合パターンが示され、ハイブリッドRAGアーキテクチャの構築手法が詳述されている。

エンタープライズ向けAIアシスタントや社内知識検索システムの精度向上を目指す開発者にとって、グラフ統合RAGは次の重要な実装テーマとなっている。

MITがAIエージェントの検索を最適化しLLM精度を向上させる研究を発表

研究成果の内容

AIエージェント検索最適化手法
LLM精度の大幅な向上を実現
検索クエリの自動精緻化
RAGシステムへの応用可能性
MIT NEWSが研究詳細を公開

実用への応用

企業検索システムの精度向上
知識ベース活用の効率化
エージェントAIの信頼性強化

MITの研究チームは2026年2月5日、AIエージェントが情報検索をより効果的に行うための新手法を発表した。LLMの回答精度を大幅に向上させる成果として注目される。

研究では、AIエージェント検索クエリを自動的に最適化・精緻化することで、必要な情報を一度の検索で取得できる確率を高める手法を開発した。

この手法によりハルシネーション(誤情報生成)が低減され、企業のRAGシステムや顧客対応AIの信頼性向上に直接応用できる。

エージェントAIが自律的に検索戦略を立案する能力は、複雑な業務調査や競合分析、法規制調査などのユースケースで大きな価値を持つ。

MITの研究成果は将来的にオープンソース化される見込みで、エージェントAIシステムの信頼性を底上げする基盤技術として期待されている。

NvidiaのNemotronモデルがマルチモーダル検索と文書AIを強化

モデルの性能と用途

ColEmbed V2がマルチモーダル検索首位
ViDoRe V3ベンチマークでトップ達成
Nemotron AgentsがAIリアルタイムBI実現
文書構造を理解した情報抽出
RAGパイプラインとの高い親和性
エンタープライズ文書処理の革新

ビジネス活用

非構造化文書からKPI抽出
業務意思決定支援の即時化
Nvidiaエコシステムとの統合促進

Nvidiaは2026年2月4日、マルチモーダル検索モデル「Nemotron ColEmbed V2」がHuggingFaceのViDoRe V3ベンチマークでトップスコアを達成したと発表した。

ColEmbed V2は画像・テキスト・表・チャートを統合したマルチモーダル文書検索において卓越した性能を持ち、企業の複雑な文書からの情報抽出を実現する。

Nemotron Agentsはリアルタイムで文書をビジネスインテリジェンスに変換するシステムで、ERPデータやレポートから即座にKPIを算出できる。

これらのモデルはNvidiaのAI基盤(NIM)上で動作し、既存のRAGアーキテクチャ検索システムへの統合が容易だ。

日本企業においても大量の非構造化文書(契約書、報告書等)を持つ組織にとって、文書AI自動化の実用性が高まった重要な進展だ。

AIボットがウェブトラフィックの主要発生源となった実態

トラフィック構成の変化

AIクローラーが웹トラフィックの主要源
人間のブラウジングを上回る傾向
RAGシステムのデータ収集が急増
robots.txt無視のボットが問題化
コンテンツ作成者への収益損失リスク
Wiredが最新データで実態報告

コンテンツ・広告業界への影響

広告インプレッションの品質低下
ペイウォール回避手法の進化
コンテンツ経済の構造的変化

Wiredは2026年2月4日、AIボットがウェブトラフィックの重要な構成要素となっており、一部サイトでは人間ユーザーを上回ると報じた。

AIシステムがRAG検索拡張生成)のためのデータ収集やモデル学習用データ取得を目的とするクローリングが急増していることが背景にある。

多くのAIクローラーはrobots.txtの指示を無視するか、人間のブラウザを偽装してアクセスするため、サイト運営者がアクセス制御をしにくい状況になっている。

ウェブ広告ビジネスの基盤であるインプレッション数にAIボットトラフィックが混入することで、広告効果の測定精度が低下するリスクがある。

コンテンツ制作者にとってはAIが無断でコンテンツを学習・転用することへの対価問題も浮上しており、著作権とAIの関係を巡る法的議論も加速している。

企業のRAG評価は指標を間違えており本質的な問題を見逃している

RAG評価の誤り

検索精度ではなく誤った指標
パイプラインのシステム依存化問題
エンタープライズRAGの根本課題

正しい評価アプローチ

レイテンシーと可用性の重視
エンドツーエンドのビジネス成果測定
自律型システムへの備え

多くの企業がRAGシステムを評価する際、実際のビジネス成果ではなく検索精度のような狭義の技術指標のみを測定しており、本質的な問題を見逃しています。

RAGはLLMに取り付けられた機能ではなく、今やワークフロー自動化の中核的なシステム依存要素となっており、信頼性・レイテンシー・可用性の評価が必須です。

特に半自律型AIシステムが重要な意思決定を担う場面では、検索の失敗が連鎖的に誤判断を引き起こす危険があり、エラー伝播の測定が不可欠です。

エンタープライズが本当に測定すべきは、RAG検索がエンドユーザーの行動やビジネス指標にどう影響するかという因果的評価です。

AI自律化が進む現在、RAG評価の刷新は企業のAI戦略の信頼性を左右する戦略的課題となっています。

ほとんどのRAGシステムは高度な文書を理解せず断片化する

技術的問題

RAG高度な文書で失敗
チャンキングの限界
文脈の消失

解決策の方向性

構造認識RAG
ドキュメントグラフ活用
より賢いインデックス設計

大半のRAGシステムは複雑な構造を持つ文書(技術仕様書、財務報告書など)を適切に理解できず、ただ断片化して意味を失ってしまうという根本的な問題が指摘されています。

この問題を解決するためには文書の構造と意味的関係を認識した高度なインデックス設計と、グラフベースの情報取得アプローチが有効とされています。

ベクトル検索が失敗する文書で98.7%の精度を達成する木探索フレームワーク

技術の概要

ベクトル検索限界を超える
98.7%の高精度
木構造探索の活用

実用的価値

複雑文書理解の改善
RAGシステムの強化
エンタープライズ知識管理

ベクトル検索が失敗する複雑な文書構造に対して、木構造探索を活用することで98.7%という高い精度を達成する新しいフレームワークが発表されました。

RAGシステムの精度向上はエンタープライズの知識管理と情報検索の品質を大幅に改善し、特に法律や医療のような複雑な文書を扱う分野での活用が期待されます。

Contextual AIがエンタープライズRAGをAgent Composerで本番展開可能に

Agent Composerの概要

エンタープライズRAG本番化支援
既存システムとの統合容易化

実用価値

RAGパイプラインの品質向上
エンタープライズ知識管理
プロダクション信頼性確保

Contextual AIはAgent Composerを発表し、エンタープライズのRAGシステムを研究段階から本番環境への展開を支援するツールを提供します。

RAGとAIエージェント統合は複雑なエンタープライズナレッジ管理の課題を解決し、本番品質の信頼性を確保します。

OpenAIのPostgreSQL拡張がエンタープライズDB設計に示す教訓

技術的教訓

シャーディング戦略の詳細
接続プーリングの最適化
読み取りレプリカの活用
pgvectorRAG統合

エンタープライズへの示唆

オープンソースDBでの大規模化
AIアプリ設計のベストプラクティス
コスト効率の実証
DB管理者の学習リソース

VentureBeatはOpenAIのPostgreSQL拡張に関するエンジニアリング事例を詳しく分析した。8億ユーザーへのスケール事例は、エンタープライズがAIアプリを大規模展開する際のデータベース設計の参考になる。

特に接続プーリングの設計、pgvectorによるRAGとの統合、読み取りレプリカの最適活用が実践的な指針として注目される。

商用クラウドDBではなくオープンソースPostgreSQLでメガスケールを実現できることを示した点は、エンタープライズのコスト最適化にとって重要な示唆を持つ。

OpenAIが8億ユーザーへのPostgreSQL拡張手法を公開

技術的詳細

8億ユーザーChatGPTを支える
PostgreSQLの大規模拡張手法
シャーディング・接続プール設計
pgvectorとのRAG統合

エンタープライズへの示唆

既存技術でのスケール実証
クラウドネイティブDB設計
データベース管理者への知見
AI時代の基盤設計

OpenAIエンジニアリングブログは、PostgreSQLを8億人のChatGPTユーザーに対応するためにどのように拡張・最適化したかを詳細に公開した。オープンソースRDBでのメガスケール実装の知見だ。

シャーディング・接続プーリング・読み取りレプリカの設計、およびpgvectorを使ったRAGとの統合手法が具体的に説明されている。

エンタープライズのAIシステム設計者にとって、大規模AIアプリのデータベース設計における実用的なベストプラクティスとして直接参考になる内容だ。

MemRLがファインチューニングなしでRAGを超える

技術の詳細

強化学習ベースのメモリ管理
RAGより複雑な推論で優位
追加学習不要で即時適用
長期記憶を自動的に形成

RAGへの影響

RAGアーキテクチャの限界を示す
ベクタDB依存の代替手法
複雑エージェントへの応用
次世代RAGへの進化

VentureBeatが報じたMemRL(Memory Reinforcement Learning)は、ファインチューニングなしに強化学習でAIエージェントの記憶を管理し、複雑なベンチマークRAGを超えた性能を示した。メモリ管理の新アプローチだ。

RAGはベクタDBへの依存と検索精度の限界があるが、MemRLは強化学習によりエージェントが自律的に重要情報の記憶・忘却を管理するため、より柔軟だ。

エンタープライズでのAIエージェント展開において、MemRLのアプローチが既存RAGシステムの代替または補完技術として注目される。

MITの再帰フレームワークでLLMが1000万トークンをコンテキスト劣化なく処理

技術の革新点

1000万トークンの処理を実現
再帰的フレームワークによる解決
コンテキスト劣化を防ぐ設計
長文書処理が現実的に
メモリ効率も改善

実用的なインパクト

法律文書全体を一度に処理
長編小説の一括分析が可能
コードベース全体を把握できる
企業データの大規模分析
RAG不要のシナリオが増える

MITの研究者が新しい再帰的フレームワークを開発し、LLMが1000万トークンという超長文脈を「コンテキスト劣化」なく処理できることを実証しました。

従来のモデルは文脈が長くなるほど「迷子」になり、文書の後半部分の内容を正確に参照できなくなる問題がありました。このフレームワークはその問題を解決します。

1000万トークンというのは、書籍数冊分や大規模なコードベース全体に相当する量です。これによりRAGアーキテクチャなしに大量の文書を直接モデルに入力できる可能性があります。

長文脈処理は現在のLLM研究における最重要テーマの一つであり、GoogleOpenAIAnthropicなども競争的にコンテキスト窓の拡張に取り組んでいます。

Differential Transformer V2がアテンション機構の効率を大幅改善

技術的革新

差分アテンションの第2世代
ノイズ除去精度が向上
長文脈での性能が改善
計算効率も向上している
既存モデルにも適用可能

研究・応用への影響

Transformerアーキテクチャを刷新
RAGの精度向上に応用可能
長文書処理の実用性が高まる
コスト削減効果が期待される
GPT後継モデルへの採用可能性

Differential Transformer V2が発表されました。この研究は差分アテンション機構の第2世代として、従来のTransformerよりも効率的かつ精度の高いアテンション計算を実現します。

差分アテンションは2つのアテンション出力の差分を取ることでノイズを除去する仕組みです。V2ではこの機構がさらに洗練され、長文脈での精度が大幅に向上しています。

RAG(検索拡張生成)や長文書の要約・分析など、実用的なユースケースでの性能向上が期待されます。計算コストも改善されており、実装上の魅力があります。

LLMのアーキテクチャ研究は競争が激しく、このようなアテンション効率化の成果は次世代モデル開発に直接影響します。

「コンテキストエンジニアリング」がAI出力品質向上の鍵として注目

概念と実践

プロンプトだけでなくコンテキスト全体を設計
システムプロンプトRAG・ツールの統合設計
LLMの限界を補完する体系的アプローチ
プロンプトエンジニアリングの進化形
GitHub公式ブログでの解説が注目集める

GitHubの公式ブログで紹介されたコンテキストエンジニアリングは、単なるプロンプトの書き方を超えて、LLMに与えるすべての情報(システムプロンプトRAGデータ、ツール定義、会話履歴)を体系的に設計するアプローチです。

AIプロダクトの出力品質が伸び悩む要因の多くはプロンプトではなくコンテキスト設計の問題であるという指摘は、LLMアプリケーション開発者にとって実践的な示唆を持ちます。モデル選定よりもコンテキスト設計の改善が費用対効果の高い品質向上手段となるケースが多いとされています。

AI推論セキュリティ:11の実行時攻撃がCISOを動かす

AIランタイム攻撃の実態

VentureBeatがCISOを動かす11種類の推論攻撃を特集
プロンプトインジェクション・データ抽出・モデル操作
ジェイルブレイク手法が本番AIシステムに到達
エージェント型AIシステムが新しい攻撃面を生む
RAG・ツール呼び出しを悪用したサイドチャネル攻撃
企業AIの本番稼働が攻撃者の標的に

VentureBeatの詳細な調査記事は、CISOがAI推論セキュリティプラットフォームの導入を決断する11の主要なランタイム攻撃手法を分類しました。プロンプトインジェクションから、RAG経由のデータ抽出、ツール呼び出しを悪用したサイドチャネル攻撃まで、現実の企業AIシステムに対して行われている攻撃手法が網羅されています。

エージェント型AIシステムの普及によって、攻撃面(アタックサーフェス)が大幅に拡大しています。AIエージェントがツールを呼び出し、外部システムと連携し、コードを実行する能力を持つため、従来のセキュリティ境界では守り切れない新しいリスクが生まれています。

AIセキュリティプラットフォーム市場が急速に成長しており、CISOは本番環境のAIシステムを守るための専門ツールの導入を急いでいます。日本企業でもAIセキュリティの内製化・外部委託を検討する動きが広がっています。

DatabricksのInstructed Retrieverが従来型RAGを凌駕

新しいRAG手法の技術的優位性

DatabricksInstructed Retrieverを発表
指示に従ったデータ取得で従来RAGを超える精度
複雑なクエリや暗黙的な情報ニーズへの対応力
指示チューニングでretrieverを特化させる手法
ベクター検索と組み合わせたハイブリッドアプローチ
DatabricksのUnity Catalogと統合して利用可能

エンタープライズRAGへの応用

企業内ナレッジの精度の高い取得が可能に
従来の「質問に似た文書を探す」から「意図を理解して探す」へ
コンテキスト不明確なクエリでも適切な情報を取得
社内文書・法務・財務データへの応用が期待
Databricksを使う企業のRAGパイプライン改善に直結
既存のLangChainLlamaIndexとの互換性を維持

Databricksは、従来のRAG検索拡張生成)の限界を超える「Instructed Retriever」という新しいデータ取得手法を発表しました。従来のベクター類似検索は「質問に意味的に近い文書を探す」ものでしたが、Instructed Retrieverは明示的な指示に従って意図を理解した上で情報を取得します。

複雑なビジネスクエリや、ユーザーが何を求めているか明示的に伝えていないケースでも、文脈と意図を推定して適切なデータを取得できます。Databricksの統合データプラットフォームUnity Catalogと組み合わせることで、企業全体のデータ資産へのRAGアクセスが改善されます。

エンタープライズRAGの精度は、AIエージェントの有用性に直結する根幹技術であり、この改善はDatabricksを使うデータ・エンジニアリングチームにとって即座に価値が生まれる成果です。競合のSnowflake Cortex AIとの差別化にも貢献します。

小型モデルがマルチモーダル検索の精度を大幅に向上

Llama Nemotron RAGモデルの性能

HuggingFaceLlama Nemotron RAGモデルを公開
マルチモーダル検索で大型モデルに匹敵する精度
視覚的なドキュメント検索(VDR)の精度を改善
テキストと画像の混在したドキュメントを効率処理
小型かつ高速なモデルで運用コストを削減
RAGパイプラインへの組み込みが容易な設計

実務への応用と意義

ドキュメント処理の精度とコストを両立
PDFや表・グラフを含む複合文書に強い
クラウドに依存しないローカル展開が可能
金融・法務・医療などの業種で高い需要
エンタープライズ検索システムの精度向上に貢献
オープンソースで無償利用できる利点も大きい

HuggingFaceは、小型でありながら高い精度を持つLlama Nemotron RAGモデルの詳細を発表しました。このモデルはマルチモーダル検索と視覚的なドキュメント検索(VDR)において、はるかに大型のモデルと競争できる性能を持ちます。

特に、テキストと図表・画像が混在するPDFや業務文書の検索において優れた結果を示しています。RAGパイプラインに組み込むことで、エンタープライズ検索システム全体の精度向上が期待できます。

小型モデルの高性能化というトレンドの典型例として、オンプレミスや低コストクラウドでの展開が可能であり、クラウドへのデータ送信をためらう金融・医療・法務などのセンシティブな業界での活用が広がりそうです。

マドゥロ拘束でAI生成偽情報が氾濫、ChatGPTも誤情報を発信

リアルタイム偽情報の爆発的拡散

米軍のベネズエラ侵攻・マドゥロ拘束後即座に偽情報氾濫
AI生成コンテンツが事実確認前に拡散
Xなど主要SNSがフェイクの温床に
ディープフェイク動画が信頼できる情報に見えた
速報性と真実性のトレードオフが深刻化
ソーシャルメディアの情報信頼性が問われる

ChatGPTの誤情報問題と信頼性の課題

ChatGPTがマドゥロ拘束の事実を否定する回答
トレーニングデータのカットオフが原因
リアルタイム情報へのアクセス欠如が露呈
ユーザーはChatGPTを事実情報源として信頼
AIの「自信ある誤答」が誤解を増幅
ニュース速報時代のAI信頼性設計が課題

米国軍がベネズエラに侵攻しニコラス・マドゥロ大統領を拘束したという歴史的な出来事の直後、AI生成の偽情報がソーシャルメディア上で爆発的に拡散した。深夜に始まったトランプ大統領の発表から数分以内に、事実確認のされていない画像動画・テキストが大量に流通した。

特に問題となったのは、ChatGPTがマドゥロ拘束という事実を否定または知らないと回答し続けたことだ。ユーザーは速報情報をAIに確認しようとしたが、ChatGPTのトレーニングデータのカットオフにより正確な情報が提供できなかった。

AIが「知らない」と回答する場合より、誤った事実を自信を持って回答する場合の方が被害が大きい。今回のケースでは、ChatGPTの否定的な回答がむしろ偽情報拡散を助長する逆説的な状況が生まれた。

ソーシャルメディア上では、AIで生成された偽のマドゥロの動画・偽の政府声明・改ざんされた衛星画像などが出回り、情報の真偽判断が著しく困難になった。従来のファクトチェック機関が追いつけない速度での拡散だった。

この事件は、リアルタイムの政治的出来事におけるAIの情報信頼性設計の根本的な問題を浮き彫りにした。RAG検索拡張生成や最新ニュース連携機能の重要性が改めて認識されるとともに、AIの回答に対するユーザーリテラシー教育の必要性も高まっている。

2026年データ予測:RAGは死んだ、次世代AI基盤はどこへ

RAGの終焉と代替技術

従来のRAGパイプラインは単一クエリ・単一ソースの限界
複数データソース統合とコンテキスト記憶が後継に
Snowflakeエージェント型ドキュメント分析が先例
文脈的メモリRAGの弱点を補う
エージェントが動的にデータを取得・統合する時代に
ベクターDBは単独では生き残れない——統合が必須

2026年データインフラ予測

リレーショナルDBがAI向けに再評価される
ベクター機能の既存DBへの埋め込みが主流化
専用ベクターDBは差別化が困難に
グラフDBとベクター検索の組み合わせが台頭
データガバナンスとAI統治の統合が必須に
エージェント時代の「継続的更新」データ基盤が求められる

RAGは死んだ」という主張がデータ業界で広がっています。従来のRAGアーキテクチャは単一クエリ・単一データソース・単一時点という制約があり、エージェントAIの多様なニーズに応えられなくなりました。VentureBeatが2026年のデータ予測を特集しています。

代替として注目されるのが文脈的メモリと改良型RAGの組み合わせです。Snowflakeエージェント型ドキュメント分析など、複数データソースを動的に統合し、過去の対話も記憶するシステムが実用化されています。

ベクターデータベース市場も転換期にあります。Pinecone、Weaviate、Qdrantなどの専用ベクターDB製品は、PostgreSQL(pgvector)やMongoDB、Elasticなどの既存DBにベクター機能が統合されることで差別化が難しくなっています。

2026年の勝者は、リレーショナルデータ、ベクター検索、グラフ検索を統合しエージェントが自在に活用できるデータ基盤を提供できる企業です。データガバナンスとAIガバナンスの統合も不可避となります。

オープンソースAIが独自モデルに挑む三つの新展開

動画理解・視覚AIの前進

Ai2がオープンソース動画モデル「Molmo 2」を公開
8B・4B・7Bの3バリアントを提供
動画グラウンディングとトラッキングでGemini 3 Proを上回る性能
マルチ画像動画クリップの入力に対応
ピクセルレベルの物体追跡が可能
小規模モデルで企業導入のコストを大幅に削減

エージェントメモリとAIコード開発の革新

HindsightがRAGの限界を超える4層メモリアーキテクチャを実現
LongMemEvalで91.4%の精度を達成し既存システムを凌駕
世界・経験・意見・観察の4ネットワークで知識を構造化
ZencoderがマルチモデルAIオーケストレーション「Zenflow」を無料公開
ClaudeOpenAIモデルが互いのコードをクロスレビュー
構造化ワークフローバイブコーディングを卒業しコード品質20%向上

Ai2(アレン人工知能研究所)は2025年12月16日、オープンソースの動画理解モデル「Molmo 2」を公開しました。8B・4B・7Bの3種類を揃え、動画グラウンディングや複数画像推論においてGoogleGemini 3 Proを上回るベンチマーク結果を示しています。

Molmo 2の最大の特徴は「グラウンディング」能力の強化です。ピクセルレベルでの物体追跡や時間的な理解を可能にし、これまで大型独自モデルが独占してきた動画分析領域に本格参入しています。企業が動画理解をオープンモデルで賄える現実的な選択肢となりました。

一方、Vectorize.ioはVirginia Tech・ワシントン・ポストと共同でオープンソースのエージェントメモリシステム「Hindsight」を発表しました。従来のRAGが抱えていた「情報の均一処理」という根本問題に対し、4種類のネットワークで知識を分離する新アーキテクチャを採用しています。

HindsightはLongMemEvalベンチマークで91.4%という最高精度を達成しました。マルチセッション問題の正答率が21.1%から79.7%に、時間的推論が31.6%から79.7%へと大幅に向上しており、エージェントが長期的な文脈を保持する能力が飛躍的に改善されています。

このシステムは単一のDockerコンテナとして動作し、既存のLLM API呼び出しをラップするだけで導入できます。すでにRAGインフラを構築したものの期待通りの性能が得られていない企業にとって、実用的なアップグレードパスとなります。

ZencoderはAIコーディング向けのマルチエージェントオーケストレーションツール「Zenflow」を無料のデスクトップアプリとして公開しました。計画・実装・テスト・レビューを構造化ワークフローで処理し、AnthropicClaudeOpenAIのモデルが互いのコードを検証し合う仕組みを採用しています。

Zencoder CEOのFilev氏は「チャットUIはコパイロット向けには十分だったが、スケールしようとすると崩壊する」と述べています。複数のAIエージェントを並列実行し、モデル間のクロスレビューによってコード品質を約20%向上させるとしており、ビジョンは「プロンプトルーレット」から「エンジニアリング組み立てライン」への転換です。

3つの発表に共通するのは、オープンソースや無料ツールが独自クローズドモデルと競合できる水準に達しつつあるという潮流です。動画理解・長期メモリ・コード品質という異なる課題に対し、それぞれ構造的なアプローチで解決を試みており、エンタープライズAI活用の選択肢を広げています。

AI信頼性の危機:巻き戻し・ベンチマーク論争・根拠なき導入への警鐘

OpenAIのモデルルーター撤回と消費者の本音

ChatGPTのモデルルーターをFree・Goユーザー向けに**静かに廃止**
推論モデルの利用率が1%未満から7%へ増加したが**DAUが低下**
思考中ドット20秒は「Googleより遅い」と利用離れを直撃
有料プラン(Plus・Pro)ではルーターを**継続提供**
GPT-5.2 Instantの安全性向上を理由に、センシティブ対話の特別ルーティングも廃止
ルーター技術は改善後に無料層へ**再投入予定**

Zoomのベンチマーク首位宣言と「コピー」批判

Humanity's Last Examで48.1%を記録し**歴代最高スコア**を主張
独自モデルを学習させず、OpenAIGoogleAnthropic APIを束ねた**フェデレーテッドAI**
Z-scorerで複数モデルの回答を評価・選択する「AIトラフィックコントローラー」
研究者から「他社の成果を横取りしている」と**強い批判**
一方でKaggle的アンサンブルとして「実践的に正しい手法」と**評価する声も**
顧客が本当に必要な通話文字起こし検索などの問題は未解決との指摘

エンタープライズAIに求められる「根拠」と信頼性

SAP Jouleはテラバイト規模の**企業内知識でRAGをグラウンディング**
コンサルタント認定試験で95%超を達成し実用精度を実証
導入企業のコンサルタントの**1日1.5時間を節約**、Wiproは700万時間を削減
リアルタイムインデックスで最新ドキュメントを即時反映
プロンプトインジェクション・ガードレール・GDPRに対応した**エンタープライズ級セキュリティ**
次フェーズは顧客固有の設計書・システムデータによる**二重グラウンディング**

AI業界において、精度・速度・信頼性のトレードオフが改めて問われています。OpenAIChatGPTのモデルルーターを無料・Goユーザーから撤廃しましたが、背景には推論モデルの高コストとユーザー離れという現実がありました。

モデルルーターは「最適なモデルを自動選択する」という魅力的な理念を持っていましたが、応答に最大数分を要する推論モデルへの自動振り分けが日常的なチャット体験の速度感と相容れず、ユーザー離れを招いたと見られています。

Zoomはベンチマーク「Humanity's Last Exam」でGoogle Gemini 3 Proを上回る48.1%を記録し、AI業界に驚きと議論を呼びました。ただしZoomは自社でモデルを学習させたわけではなく、OpenAIGoogleAnthropicのAPIを束ねたオーケストレーション基盤で結果を出しています。

この手法に対し、「他社の研究成果を横取りしている」という批判が研究者から噴出しました。一方で、複数モデルのアンサンブルはKaggleの勝利戦略と同種であり、実用的には理にかなっているという擁護論も出ています。

批判の核心は技術の是非ではなく、「モデルを開発した」という誤解を招く発表姿勢にあります。また、通話文字起こしの検索精度など実際のユーザー課題がベンチマーク追求の陰で放置されているという指摘も重要です。

エンタープライズ向けでは、SAPがJoule for Consultantsという形でグラウンディングAIの方向性を示しています。テラバイト規模の企業内知識とリアルタイムインデックスを組み合わせ、SAP認定試験で95%超の精度を維持しています。

SAP Jouleの特徴は、汎用LLMをそのまま使うのではなく、SAP固有の知識基盤・人間のコンサルタントが監修したゴールデンデータセット・厳格なセキュリティ層を重ねた点にあります。これにより、百万ドル規模の変革プロジェクトで求められる正確性を担保しています。

3つのニュースに共通するのは、AIの「見かけ上の性能」と「実務での信頼性」の乖離です。速さを求めて精度を落とすか、精度を求めて速さを犠牲にするか、あるいは他社モデルを束ねて帳尻を合わせるか——いずれのアプローチも一長一短があります。

エンタープライズAIの普及フェーズにおいては、ベンチマークのスコアよりも、根拠のある回答・透明性のある動作・データガバナンスへの信頼が差別化要因になりつつあることをこれら3件の記事は示唆しています。

今後、ユーザーの実体験がAI製品の評価軸として一層重要になると考えられます。OpenAIのルーター再投入やZoomのAI Companion 3.0のリリース、SAPの二重グラウンディング展開など、各社の次手が信頼性の証明になるかどうか注目されます。

AIが通信・教育・生命科学の現場を変える

LangGraphで実現した通信大手の顧客対応エージェント

Fastweb+VodafoneがLangChain/LangGraphでAIエージェントを本番稼働
顧客向けSuper TOBiは約950万人に対応、正答率90%・解決率82%を達成
コールセンター向けSuper AgentはOne-Call解決率86%超に貢献
Neo4jナレッジグラフとRAGを組み合わせた手順主導のトラブル解決
LangSmithによる日次自動評価でモデル改善サイクルを継続運用
Supervisorパターンが意図ルーティングを決定論的に制御

AI支援で生命科学の実験効率を79倍に向上

OpenAIGPT-5がHiFi DNA分子クローニング手順を自律最適化
RecA/gp32という新規酵素ペアを提案しRAPF-HiFi手法を発案
酵素アセンブリと形質転換の両最適化を合わせ79倍の効率改善を確認
ロボットシステムによる自律実験でヒト実験比89%の性能を実証
Replit Learnがコーディング不要の無料AI開発教育プラットフォームを開始
バイブコーディング」の概念でAIとの反復的な試作学習を提供

イタリアの通信大手Fastweb+VodafoneはLangChainとLangGraphを基盤として、顧客向けチャットボット「Super TOBi」とコールセンター支援ツール「Super Agent」の2つのAIエージェントを本番環境に展開しました。約950万人の顧客に対応するSuper TOBiは正答率90%、解決率82%を達成しています。

Super Agentは、Neo4jに格納されたナレッジグラフとベクトルストアを組み合わせたハイブリッドRAGによって、コンサルタントへリアルタイムで最適な次のアクションを提示します。One-Call解決率は86%を超え、オペレーターの対応品質と一貫性が大幅に向上しました。

LangSmithを初日から導入した同社は、日次で自動評価パイプラインを稼働させ、チャットボット応答を分類・採点して継続的な改善フィードバックを生成しています。この仕組みにより、ビジネス担当者と技術チームが連携しながら目標品質水準を維持しています。

OpenAIGPT-5を用いて湿式実験室における分子生物学のクローニング手順を自律最適化する実験を実施しました。固定プロンプトで人的介入なしに複数ラウンドの反復実験を行い、最終的に79倍の効率改善を達成したと報告しています。

特筆すべき発見はGPT-5が提案した新しい酵素メカニズムです。大腸菌由来の組換え酵素RecAとファージT4のgp32タンパク質を組み合わせたRAPF-HiFi手法は、DNA末端の安定化とホモロジー検索を促進し、既存のHiFi Gibsonクローニングより2.6倍の改善をもたらしました。

形質転換工程ではT7プロトコルがコンピテントセルの濃縮処理により36倍の改善を達成し、酵素と形質転換の両手法を組み合わせることで累計79倍という成果に至りました。これらの結果はAIが実際の実験室研究を意味ある形で支援できることを示しています。

一方でReplitコーディング経験不要の無料教育プラットフォーム「Replit Learn」を公開しました。アプリの仕組み、LLMの基礎、バイブコーディングという3つのレッスンから構成されるAI Foundationsコースを提供し、誰でもAIを使ったアプリ開発を学べる環境を整えています。

これら3つの事例はいずれも、AIがドメイン固有の複雑な課題に対して実務レベルで機能し始めていることを示しています。通信の顧客対応、生命科学の実験最適化、そしてノーコードのソフトウェア教育という異なる領域で、エージェント型AIの実用化が着実に進んでいます。

Cohere、Rerank 4を発表

主要な技術改善

コンテキストウィンドウが4倍の32Kに
長文ドキュメントの処理が向上
セクション間の関連性を捕捉
ランキング精度が大幅改善

2つのバリアント

Fast:EC・CS向け高速モデル
Pro:深い推論・分析向け
エージェントのエラー削減に貢献
エンタープライズ検索の高度化

Cohere検索ランキングモデルの最新版「Rerank 4」を発表しました。前バージョンの3.5から約1年ぶりのアップデートで、コンテキストウィンドウが4倍の32Kに拡大されています。これにより長文ドキュメントの処理や複数パッセージの同時評価が可能になりました。

Rerank 4はFastとProの2つのバリアントで提供されます。Fastはeコマースやカスタマーサービスなど速度重視のユースケースに最適化され、Proはリスクモデル生成やデータ分析など深い推論と精度が求められるタスク向けに設計されています。

AIエージェントが複雑なタスクを遂行する際、正確な情報検索への依存度が高まっています。Rerank 4の改善されたランキング能力は、エージェントのエラーを削減し、エンタープライズRAGパイプラインの信頼性向上に大きく貢献します。

Google新指標で判明、最新AIも「事実性70%」の壁

事実性を測る新指標FACTS

GoogleがAIの事実性評価指標を公開
内部知識と外部検索の両面で測定
医療や金融など高精度領域向け

最新モデルでも70%届かず

Gemini 3 Pro等が7割の壁に直面
マルチモーダルは5割未満と低迷
検索機能併用が精度向上の鍵

企業導入への示唆

内部知識依存は避けRAG構築を推奨
画像解析の無人化は時期尚早

Google DeepMindとKaggleは2025年12月10日、AIの事実性を測定する新指標「FACTS」を公開しました。これはモデルが生成する情報の正確さを、内部知識や検索能力など多角的に評価する枠組みです。最新のGemini 3 ProやGPT-5でさえ総合スコア70%に届かず、AIの完全な自動化には依然として高い壁がある現状が明らかになりました。

今回の結果は、企業におけるAI実装戦略に警鐘を鳴らすものです。特に、チャートや画像を解釈するマルチモーダルタスクの正答率が軒並み50%未満だった点は衝撃的です。金融データの自動読み取りなどを無人で運用するのは、現時点では時期尚早と言わざるを得ません。

一方で、エンジニアにとっての明確な指針も示されました。モデル自身の記憶に頼るよりも、検索ツールを併用させた方が正確性は高まるというデータです。これは社内データを参照させるRAG検索拡張生成システムの有効性を強く裏付けています。

経営者やリーダーは、モデル選定時に総合点だけでなく用途別のサブスコアを注視すべきです。例えば規定遵守が必須のサポート業務ならグラウンディングスコアを、調査業務なら検索スコアを重視するなど、目的に応じた最適なモデル選定が求められます。

結論として、AIモデルは進化を続けていますが、いまだ3回に1回は間違えるリスクを含んでいます。この「70%の事実性」という限界を理解した上で、人間による検証プロセスを組み込んだシステム設計を行うことが、ビジネスでの成功の鍵となります。

NYTがPerplexity提訴 記事無断利用と収益侵害を主張

訴訟の核心と主張

NYTは著作権侵害でPerplexityを提訴
記事の逐語的コピーや要約提供を問題視
ペイウォール回避による収益機会の損失を主張

双方の戦略と対立構造

訴訟は有利なライセンス契約への交渉手段
Perplexityは技術革新への不当な抵抗と反論
NYTはAmazonとは契約締結済みで使い分け

業界への波及と今後

シカゴ・トリビューン紙なども同様に提訴
AI学習とフェアユースの境界線が焦点

アメリカの有力紙ニューヨーク・タイムズは12月5日、AI検索スタートアップPerplexity著作権侵害で提訴しました。同紙は、Perplexityが許可なく記事を大量に学習・加工し、自社製品を通じて読者に提供することで、本来得られるはずの購読料や広告収益を不当に侵害していると主張しています。

訴状では、Perplexity検索拡張生成RAG)技術が、ウェブ上の情報を収集して回答を生成する過程で、ペイウォールで保護されたコンテンツを不正に取得していると指摘しています。生成される回答は元の記事の「逐語的なコピー」や詳細な要約であることが多く、ユーザーが元記事にアクセスする必要性をなくす「代替品」として機能している点を強く非難しています。

この訴訟は、AI企業に対してコンテンツ使用の対価を認めさせるための「交渉戦略」の一環である可能性が高いです。実際、ニューヨーク・タイムズはAmazonとはライセンス契約を締結済みであり、AI技術そのものを否定しているわけではありません。あくまで「ただ乗り」を許さず、知的財産に対する適正な対価と収益モデルの確立を求めています。

一方のPerplexity側は、こうした訴訟を「新しい技術に対する既存メディアの古い抵抗」と位置づけ、ラジオやテレビの登場時と同様に法的根拠がないと反論しています。しかし、同様の訴訟はOpenAIマイクロソフトに対しても起こされており、生成AIと著作権を巡る法的な境界線がどこに引かれるか、今後のビジネスモデルを左右する重要な局面を迎えています。

LLMの忘却を防ぐ新記憶構造GAM、コストと精度を両立

ウィンドウ拡大競争の限界

詳細を忘れる「コンテキスト腐敗」がAIの課題
窓拡大はコスト増と精度低下を招き持続不能

「記憶」と「検索」の分離

全履歴を保存し、必要な瞬間に文脈を再構築
記憶と検索に役割を分けるデュアル構造を採用

既存手法を凌駕する性能

長文理解でGPT-4o等を凌ぐ90%超の精度
モデル巨大化より「記憶の構造化」が実用の鍵

中国・香港の研究チームが、AIの長期記憶における「コンテキスト腐敗」を解決する新アーキテクチャ「GAM」を発表しました。従来のLLMが抱える情報の忘却問題を、モデル拡大ではなく構造の工夫で解決する画期的なアプローチです。

現在のAI開発はコンテキストウィンドウの拡大競争にありますが、これには限界があります。膨大なトークン処理はコスト増大に加え、重要情報が埋もれて精度低下や遅延を招くためです。単に入力枠を広げるだけでは、実用的な記憶能力は得られません。

GAMはこの課題に対し、機能を「記憶(Memorizer)」と「調査(Researcher)」に分離しました。Memorizerは全対話を要約せず構造化して保存し、情報の欠落を防ぎます。一方、Researcherは必要な時、必要な情報だけを能動的に検索して回答を生成します。

ソフトウェア開発の「JITコンパイラ」のように、GAMは事前に情報を圧縮せず、要求された瞬間に最適なコンテキストを組み立てます。これにより、長期プロジェクトや複雑なタスクでも、AIは過去の経緯を正確に維持し続けることが可能です。

性能評価でGAMは、既存のRAGやロングコンテキストモデルを凌駕しました。特に長期間の文脈追跡を要するテストでは90%超の精度を記録し、要約による情報損失が起きやすい従来手法に対し、圧倒的な優位性を示しています。

今後のAI開発では、モデルの巨大化より「記憶システムの設計」が重要になります。情報をどう保存し取り出すかという「コンテキストエンジニアリング」への移行が、AIを信頼性の高いビジネスツールへ進化させる鍵となるでしょう。

複雑実務に挑むAI学習基盤「Agent-R1」がRAGを凌駕

数学・コードから「現実世界」へ

従来の強化学習正解のある問題に特化
現実の業務は曖昧で動的な対応が必要
新手法は対話履歴と環境を全学習

中間評価で「過程」を磨く

最終結果だけでなく中間プロセスも評価
スパース報酬問題を解消し学習効率化
ツール実行と状況解釈を分離管理

既存手法を凌駕する実力

多段階推論従来のRAGを圧倒
DeepSeek系アルゴリズムで最高性能
企業利用の自動化レベルを向上

中国科学技術大学の研究チームが、複雑な実務タスクに対応可能なLLMエージェント強化学習フレームワーク「Agent-R1」を開発しました。従来の数学コーディングといった明確な領域を超え、曖昧さを含む現実世界の課題解決能力を大幅に向上させます。

これまでの強化学習は、正解が明確なタスクで威力を発揮してきましたが、変化し続けるビジネス環境や予測不能なフィードバックへの対応は苦手でした。エージェントが自律的にツールを使いこなし、複雑な工程を完遂するには、学習モデルの根本的な再定義が必要だったのです。

研究チームは「マルコフ決定過程」を拡張し、過去の対話履歴や環境反応を含めた学習を可能にしました。特筆すべきは、最終結果だけでなく中間の工程を評価する「プロセス報酬」の導入です。これにより、エージェントは正解に至るまでの「過程の良し悪し」を学習し、効率的にスキルを習得します。

Agent-R1は、行動を実行する「Tool」と、その結果を解釈する「ToolEnv」という2つのモジュールで構成されます。単にAPIを叩くだけでなく、その結果がタスク全体の進捗にどう意味を持つかを理解させることで、マルチターンの複雑な対話を制御します。

検証の結果、この手法で訓練されたエージェントは、従来のRAG検索拡張生成)や基本的なツール利用モデルを大きく上回る性能を示しました。特にDeepSeek-R1などで採用されるアルゴリズムGRPOとの相性が良く、企業の生産性を高める次世代エージェント開発の基盤として期待されています。

ベクトルDBの熱狂は終焉、次世代検索GraphRAGへ

ベクトルDBが直面した現実

95%の企業で投資対効果ゼロ
代表格Pineconeの失速と売却検討
単独利用の限界と精度の課題
市場の急速なコモディティ化

次世代検索の新たな潮流

キーワード併用が標準
新技術GraphRAGの台頭
検索精度が劇的に向上
真の価値はリトリーバルスタック

2024年に生成AIの必須インフラとして注目されたベクトルデータベースが、2年後の今、成熟期を迎えています。多くの企業が投資対効果を得られずにいる中、ベクトルとナレッジグラフを融合させた新技術「GraphRAG」が、検索精度を劇的に向上させる次世代の標準として台頭し始めました。これは、単なる技術の流行り廃りではなく、検索アーキテクチャの進化を意味します。

ベクトルDBはなぜ期待外れに終わったのでしょうか。ブームの象徴だった米Pinecone社は、ユニコーン企業となることなく売却を検討中と報じられています。オープンソース製品との価格競争や、既存データベースがベクトル検索機能を標準搭載したことで、差別化が困難になったのが大きな要因です。多くの企業にとって、既存の仕組みで十分なケースが増えたのです。

技術的な限界も明らかになりました。ベクトル検索は意味の近さで情報を探すため、「エラー221」を検索して「エラー222」が返るなど、業務利用に耐えうる正確性に欠ける場面がありました。この課題を補うため、多くの現場ではキーワード検索などを併用する「ハイブリッド検索」が標準的な手法となり、ベクトルDB単体で完結するという当初の夢は実現しませんでした。

こうした中、新たな解決策として「GraphRAG」が急速に注目を集めています。これは、ベクトルが持つ「意味の近さ」に、データ間の「関係性」を構造化するナレッジグラフを組み合わせる技術です。これにより、単語の類似性を超えた、より文脈に即した正確な情報検索が可能になり、複雑な問いにも答えられるようになります。

GraphRAGの効果は、複数のベンチマークで実証済みです。ある調査では、従来の検索手法で正答率が約50%だったものが、GraphRAGの導入で80%以上に向上したとの報告もあります。特に構造化されたデータ領域では、ベクトル検索を最大で3.4倍上回る性能を示した例もあり、その優位性は明らかです。

結論として、ベクトルデータベースは万能薬ではありませんでした。しかし、検索技術の進化における重要な一歩であったことは確かです。今後の競争力の源泉は、単一の技術ではなく、ベクトル、グラフ、キーワード検索などを統合した「リトリーバルスタック」全体を設計・運用する能力になるでしょう。「リトリーバルエンジニアリング」という新たな専門分野の確立も目前に迫っています。

エージェントAI、視覚データを「意味」ある資産へ

視覚AI、エージェントで次世代へ

従来型CVの「なぜ」の限界
VLMが文脈理解の鍵
検索・分析・推論を自動化

ビジネス変革をもたらす具体例

車両検査で欠陥検知率96%達成
インフラ点検レポートを自動作成
スポンサー価値をリアルタイムで測定
スマートシティの誤報を削減

NVIDIAは、エージェントAIを活用して従来のコンピュータビジョン(CV)を革新する3つの方法を発表しました。既存のCVシステムでは困難だった「なぜそれが重要か」という文脈理解や将来予測を可能にし、企業が保有する膨大な視覚データをビジネスの洞察に変えるのが狙いです。中核技術は、視覚と言語をつなぐビジョン言語モデル(VLM)。これにより、視覚情報の価値を最大化する道が開かれようとしています。

従来のCVシステムは、特定の物体や異常を検知することには長けていますが、「何が起きているか」を説明し、その重要性を判断する能力に欠けていました。このため、映像データの分析は依然として人手に頼る部分が多く、時間とコストがかかるという課題がありました。エージェントAIは、この「認識」と「理解」の間のギャップを埋める役割を担います。

第一のアプローチは「高密度キャプション」による検索性の向上です。VLMを用いて画像動画に詳細な説明文を自動生成することで、非構造化データだった映像コンテンツが、豊かなメタデータを持つ検索可能な資産に変わります。これにより、ファイル名や基本タグに依存しない、より柔軟で高精度なビジュアル検索が実現可能になります。

この技術はすでに実用化されています。例えば、車両検査システムを手掛けるUVeye社は、VLMで膨大な画像を構造化レポートに変換し、欠陥検知率を人手作業の24%から96%へと飛躍させました。また、スポーツマーケティング分析のRelo Metrics社は、ロゴの露出に文脈情報を加え、スポンサー価値をリアルタイムで算出することに成功しています。

第二のアプローチは、既存システムのアラート強化です。多くのCVシステムが出す「はい/いいえ」式の単純なアラートに、VLMが「どこで、なぜ、どのように」といった文脈を付与します。スマートシティ分野でLinker Vision社は、この技術で交通事故や災害などのアラートを検証し、誤検知を減らすと共に、各事象への迅速で的確な対応を支援しています。

そして第三に、複雑なシナリオの「AI推論」が挙げられます。エージェントAIシステムは、複数の映像やセンサーデータを横断的に処理・推論し、根本原因の分析や長時間の点検映像からのレポート自動生成といった高度なタスクを実行します。これは、単一のVLMだけでなく、大規模言語モデル(LLM)や検索拡張生成RAG)などを組み合わせたアーキテクチャによって実現されます。

Levatas社は、このAI推論を活用し、電力インフラなどの点検映像を自動レビューするAIエージェントを開発しました。従来は手作業で数週間かかっていたレポート作成プロセスを劇的に短縮し、インフラの安全性と信頼性の向上に貢献しています。このように、エージェントAIは、企業のオペレーションを根底から変える力を持っています。

NVIDIAは、開発者がこれらの高度な機能を実装できるよう、各種VLMモデルや開発プラットフォームを提供しています。エージェントAIの導入は、企業が日々蓄積する視覚データを単なる記録から、戦略的な意思決定を支える「生きたインテリジェンス」へと昇華させる重要な一歩となるでしょう。

Google、GeminiにRAG統合 複雑な開発を不要に

File Searchの主な特徴

複雑なRAGパイプラインを完全自動化
ストレージや埋め込み生成は実質無料
最新モデルによる高精度なベクトル検索
回答の根拠を示す引用機能を内蔵

開発者・企業への提供価値

開発工数と運用コストを大幅削減
PDFやDOCXなど多様なファイルに対応
競合よりシンプルな統合体験を提供
数時間かかった作業が数秒に短縮した事例も

Googleは、同社の生成AI「Gemini」のAPIに、フルマネージドの検索拡張生成RAG)システム「File Search Tool」を統合したと発表しました。この新機能は、企業が自社データに基づいた高精度なAIを開発する際に直面する、複雑なRAGパイプラインの構築・管理作業を完全に自動化します。これにより、開発者インフラ構築から解放され、アプリケーション開発に集中できるようになります。

従来、RAGシステムを構築するには、ファイルストレージの準備、適切なチャンキング(分割)戦略の策定、埋め込みモデルの選定、ベクトルデータベースの契約と管理など、専門的な知識と多大な工数が必要でした。File Searchは、これら一連の複雑なプロセスをすべて抽象化し、開発者にシンプルな統合体験を提供します。

このツールは、Googleの最新かつ最高性能を誇るGemini Embedding model」を搭載しています。ベクトル検索技術を用いて、ユーザーの質問の意図や文脈を深く理解し、関連文書から的確な情報を抽出します。さらに、生成された回答には自動で引用元が付与されるため、情報の検証が容易になり、AIの信頼性向上にも貢献します。

特に注目すべきは、その画期的な料金体系です。クエリ(検索)実行時のストレージ利用と埋め込み生成は無料とし、課金はファイルを初めてインデックスする際の埋め込み作成時に限定されます。これにより、RAGの導入・運用コストが大幅に削減され、あらゆる規模の企業が利用しやすくなっています。

OpenAIAWSといった競合他社も同様のRAG支援ツールを提供していますが、多くの専門家GoogleのFile SearchがRAGパイプラインの「一部」ではなく「すべて」を抽象化する点で一線を画すと指摘しています。これにより、開発者はより少ない労力で、高性能なRAGアプリケーションを迅速に市場投入できる可能性があります。

先行導入したAIゲーム生成プラットフォーム「Beam」では、既に大きな成果を上げています。数千に及ぶテンプレートデータの中から必要な情報を瞬時に検索し、これまで数時間を要していたプロトタイピングが数分で完了するようになったと報告されており、生産性向上の好例と言えるでしょう。

File Searchの登場は、高精度な社内ナレッジアシスタントやインテリジェントな顧客サポートボットなど、企業のデータ活用を前提としたAIアプリケーション開発のハードルを大きく下げるものです。自社の競争力強化を目指す経営者開発者にとって、見逃せない選択肢となりそうです。

自律型AI導入、コンテキストエンジニアリングが鍵

自律型AIの課題と未来

信頼性の高い応答にコンテキストが必須
企業データは様々な場所に散在
2026年までに大企業の6割が導入予測

Elasticが示す解決策

AIに必要なデータとツールを提供
新機能Agent Builderで開発を簡素化
専門知識不要でAIエージェント構築

自律的に思考し業務を遂行する「自律型AI」の導入が企業で加速する中、その信頼性を担保する鍵として「コンテキストエンジニアリング」が注目されています。検索・分析プラットフォーム大手のElastic社は、企業の散在するデータをAIに的確に与えるこの技術が不可欠だと指摘。同社が提供する新機能「Agent Builder」は、専門家でなくとも自社のデータに基づいた高精度なAIエージェントの構築を可能にします。

自律型AIの性能は、与えられるコンテキストの質に大きく依存します。しかし多くの企業では、必要なデータが文書、メール、業務アプリなどに散在しており、AIに一貫したコンテキストを提供することが困難です。Elastic社の最高製品責任者ケン・エクスナー氏は、この「関連性」の問題こそが、AIアプリケーション開発でつまずく最大の原因だと指摘しています。

市場は急速な拡大期を迎えています。調査会社Deloitteは、2026年までに大企業の60%以上が自律型AIを本格導入すると予測。またGartnerは、同年末までに全企業向けアプリの40%がタスク特化型エージェントを組み込むと見ています。競争優位性の確保や業務効率化に向け、各社は実験段階から本格的な実装へと舵を切っており、導入競争は待ったなしの状況です。

この課題を解決するのが、適切なコンテキストを適切なタイミングでAIに提供する「コンテキストエンジニアリング」です。これは、AIが正確な応答をするために必要なデータを提供するだけでなく、そのデータを見つけて利用するためのツールやAPIをAI自身が理解する手助けをします。プロンプトエンジニアリングやRAG検索拡張生成)から一歩進んだ手法として注目されています。

Elastic社はこの潮流に対応し、Elasticsearchプラットフォーム内に新機能「Agent Builder」を技術プレビューとして公開しました。これは、AIエージェントの開発から実行、監視までライフサイクル全体を簡素化するものです。ユーザーは自社のプライベートデータを用いてツールを構築し、LLMと組み合わせて独自のAIエージェントを容易に作成できます。

コンテキストエンジニアリングは、高度な専門知識がなくとも実践できる一方、その効果を最大化するには技術と経験が求められ、新たな専門分野として確立されつつあります。今後はLLMが訓練データに含まれない企業固有のデータを理解するための新しい技術が次々と登場し、AIによる自動化と生産性向上をさらに加速させると期待されています。

Vertex AI強化、独自AIモデル開発をGoogleが支援

新サービス「Vertex AI Training」

企業独自の大規模モデル開発
マネージドSlurm環境を提供
数百〜数千チップの長期ジョブ
ハードウェア障害から自動復旧

競合との差別化と提供価値

AWS、CoreWeaveに対抗
多様なチップへのアクセス
Gemini開発の専門知識を活用
GPU調達の課題を解決

Google Cloudが、企業による独自の大規模AIモデル開発を支援する新サービス「Vertex AI Training」を発表しました。AWSや専門プロバイダーのCoreWeaveなどに対抗するもので、マネージドSlurm環境を提供し、大規模な計算資源へのアクセスを容易にします。

このサービスは、単純なファインチューニングRAG検索拡張生成)の利用者を対象としていません。ゼロからモデルを構築したり、大幅なカスタマイズをしたりする、数百から数千のチップを要する大規模なトレーニングジョブに焦点を当てています。

最大の特徴は、マネージドSlurm環境にあります。これにより、ジョブのスケジューリングやハードウェア障害発生時の自動復旧が実現します。ダウンタイムを最小限に抑え、大規模クラスタでの効率的なトレーニングを可能にするのです。

なぜ今、このようなサービスが求められるのでしょうか。背景には、企業がモデル開発に必要なGPUを確保する際の熾烈な競争があります。Vertex AI Trainingは、単なる計算資源のレンタルではなく、包括的な開発環境を提供することで競合との差別化を図ります。

Googleは、多様なチップへのアクセスや、自社のGeminiモデル開発で培った専門知識も提供価値として挙げています。既にシンガポールのAI Singaporeなどが早期顧客として名を連ねており、専門的なモデル開発の需要の高まりを示しています。

Mistral、企業向けAI開発・運用基盤を発表

AI開発の本番運用を支援

試作から本番運用への移行を促進
EU拠点のインフラデータ主権を確保
専門家以外も使える開発ツール

統合プラットフォームの3本柱

システムの振る舞いを可視化する可観測性
RAGも支える実行ランタイム
AI資産を一元管理するAIレジストリ

豊富なモデルと柔軟な展開

オープンソースから商用まで多数のモデル
クラウドやオンプレミスなど柔軟な展開

2025年10月24日、フランスのAIスタートアップMistral AIは、企業がAIアプリケーションを大規模に開発・運用するための新プラットフォーム「Mistral AI Studio」を発表しました。多くのAI開発が試作段階で止まってしまう課題を解決し、信頼性の高い本番システムへの移行を支援することが目的です。Googleなど米国勢に対抗する欧州発の選択肢としても注目されます。

同社はAI Studioを、AI開発における「プロダクションファビリック(生産基盤)」と位置付けています。AIモデルのバージョン管理や性能低下の追跡、コンプライアンス確保など、多くのチームが直面するインフラ面の課題解決を目指します。これにより、アイデアの検証から信頼できるシステム運用までのギャップを埋めます。

プラットフォームは3つの柱で構成されます。AIシステムの振る舞いを可視化する「可観測性」、検索拡張生成RAG)なども支える実行基盤「エージェントランタイム」、そしてAI資産を一元管理する「AIレジストリ」です。これらが連携し、開発から監視、統制まで一貫した運用ループを実現します。

AI Studioの強みは、オープンソースから高性能な商用モデル、さらには画像生成音声認識モデルまでを網羅した広範なモデルカタログです。これにより企業は、タスクの複雑さやコスト目標に応じて最適なモデルを試し、柔軟に構成を組むことが可能になります。選択肢の多さは開発の自由度を高めます。

Pythonコードを実行する「コードインタプリタ」やWeb検索など、多彩な統合ツールも特徴です。これにより、単なるテキスト生成にとどまらず、データ分析やリアルタイムの情報検索、さらには画像生成までを一つのワークフロー内で完結させる、より高度なAIエージェントの構築が可能になります。

導入形態も柔軟です。クラウド経由での利用に加え、自社インフラに展開するオンプレミスやセルフホストにも対応。企業のデータガバナンス要件に応じて最適な環境を選べます。また、不適切なコンテンツをフィルタリングするガードレール機能も備え、安全なAI運用を支援します。

Mistral AI Studioの登場は、企業におけるAI活用の成熟度が新たな段階に入ったことを示唆します。モデルの性能競争から、いかにAIを安全かつ安定的に事業へ組み込むかという運用フェーズへ。同プラットフォームは、その移行を力強く後押しする存在となるでしょう。

ウィキデータ、AI開発支援へベクトルDB公開

AI向け新データベース公開

ウィキメディア・ドイツ協会が主導
Jina.AI、DataStaxと協業
構造化データをベクトル化
RAGシステムとの連携を強化

高品質データでAI開発を革新

AIモデルの精度向上に貢献
大手以外の開発者にも機会を提供
著作権リスクの低いデータソース
ニッチな情報のAIへの反映を促進

ウィキメディア・ドイツ協会は10月1日、AI開発者向けにWikipediaの構造化データ「Wikidata」へのアクセスを容易にする新プロジェクトを発表しました。この「Wikidata Embedding Project」は、1億件以上のデータをベクトル化し、AIモデルが文脈を理解しやすくするものです。AI開発の精度向上と民主化を目指します。

プロジェクトの核となるのは、ベクトルベースのセマンティック検索です。単語や概念を数値ベクトルに変換することで、AIはキーワードの一致だけでなく、意味的な関連性も捉えられます。特に、外部情報を参照して回答精度を高めるRAG(Retrieval-Augmented Generation)システムとの連携が大幅に向上します。

従来のWikidataは、専門的なクエリ言語「SPARQL」やキーワード検索が中心で、AIモデルが直接活用するには障壁がありました。今回の新データベースは、自然言語での問い合わせにも対応し、開発者がより直感的に、かつ文脈に沿った情報を引き出すことを可能にします。

AI業界では、信頼性の高い学習データへの需要が急騰しています。このプロジェクトは、Web全体から情報を収集するデータとは一線を画し、編集者によって検証された高品質な知識を提供。大手テック企業以外の開発者にも公平な競争環境をもたらすことが期待されます。

プロジェクト責任者は「強力なAIは一握りの企業に支配される必要はない」と述べ、その独立性を強調しています。この取り組みは、オープンで協調的なAIエコシステムの構築に向けた重要な一歩と言えるでしょう。データベースはすでに公開されており、開発者からのフィードバックを元に更新が予定されています。

Verisk、生成AIで保険データ分析を改革。顧客の作業時間を「数日→数分」に短縮

導入前の主要課題

大量データの手動ダウンロードと照合が必要
差分分析に数時間から数日かかる非効率性
顧客サポートの対応時間が15%も浪費
テストケース分析に3〜4時間費やしていた

GenAIソリューションの核心

Amazon BedrockとClaude 3.5 Sonnetを活用
自然言語で質問可能な会話型UIを導入
RAGとベクトルDBで動的なコンテンツ検索を実現
Bedrock Guardrailsでコンプライアンスを確保

ビジネスインパクト

分析時間を数日から数分へ劇的短縮
手作業不要の自動差分分析が可能に
顧客の意思決定と生産性が向上
サポート負担軽減とオンボーディング効率化

保険業界向けデータ分析サービス大手のVeriskは、Amazon BedrockとAnthropicClaude 3.5 Sonnetを活用し、保険会社が抱えるISO格付け変更情報へのアクセス非効率性を劇的に改善しました。生成AIとRAG検索拡張生成)技術を組み合わせた「Verisk Rating Insights」により、従来数日を要していた複雑なデータ分析わずか数分で完了できるようになり、顧客の生産性と収益性を大きく高めています。

従来、保険会社がISO格付けコンテンツの変更点を把握するには、パッケージ全体を手動でダウンロードし、複数のバージョン間の差分を手作業で比較する必要がありました。この非効率な作業は、顧客側の分析にテストケースあたり3〜4時間を費やさせ、重要な意思決定を遅らせていました。また、Veriskの顧客サポートチームも、これらの非効率性に起因する問い合わせ対応に週15%もの時間を割かざるを得ませんでした。

Veriskは、この課題を解決するため、Amazon Bedrock上のAnthropic Claude 3.5 Sonnetを核とした会話型インターフェースを開発しました。ユーザーは自然言語で「直近2つの申請におけるカバレッジ範囲の変更点は何か?」といったクエリを入力するだけで、システムが即座に関連情報を要約して返答します。

この高精度な応答を可能にしたのが、RAGAmazon OpenSearch Service(ベクトルデータベース)の組み合わせです。RAG技術により、LLMは巨大なデータからユーザーの質問に特化した関連性の高い情報チャンクのみを動的に検索・取得し、ファイル全体をダウンロードする手間を完全に排除しました。

生成AIソリューションの導入効果は明らかです。顧客側は分析時間が劇的に短縮されたことで、データ検索ではなく価値創造的な意思決定に集中できるようになりました。また、Verisk側では、ユーザーがセルフサービスで解決できるようになった結果、顧客サポートの負担が大幅に軽減され、サポートリソースをより複雑な問題に集中させることが可能になりました。

Veriskは、新しい生成AIソリューションの信頼性を確保するため、Amazon Bedrock Guardrailsによるコンプライアンス管理と独自のガバナンス体制を構築しました。今後は、この基盤を活かし、さらなるクエリ範囲の拡張や、他の製品ラインへのソリューションの横展開・大規模化を進める計画です。