RAGに関する最新ニュース（96件） | 【AI Times】生成AIやLLMの最新情報・ニュース

プロンプトインジェクションが企業AIの最大脅威に

2026年06月28日マイクロソフト GitHub Slack Copilot ワークフローチャットボットリスク脆弱性プロンプトインジェクションクラウドセキュリティ認証暗号資産エージェントプロンプト RAG

深刻化する攻撃

OWASPでLLM最重要脆弱性

90社超で悪性プロンプト注入

AI悪用攻撃が前年比89%増

ゼロクリック型EchoLeak実証

拡大する攻撃面

エージェント乗っ取りの危険

RAGパイプライン汚染

モデルルーター誘導攻撃

LLMを信頼しない設計へ

詳細を見る

企業向けAIへの攻撃手法「プロンプトインジェクション」が、2025年から2026年にかけて最も影響力の大きい脅威として浮上しています。OWASPのLLM脆弱性ランキングでは2版連続で最上位に位置づけられ、CrowdStrikeの2026年報告書は2025年に90を超える組織で正規の生成AIツールに悪性プロンプトが注入されたと記録しました。攻撃者はこれを足がかりに認証情報や暗号資産を窃取しており、AIを悪用した攻撃の総量は前年比で89%増加しています。

この脅威の根本には、LLMが命令とデータを確実に区別できないという設計上の弱点があります。企業はLLMに指示の処理や情報の要約、自動ワークフローの起動を任せていますが、モデルは命令と文脈、メタデータの境界を見分けにくく、攻撃者に行動を操作される隙を与えてしまいます。報告書はこの状況を「プロンプトは新たなマルウェアだ」と端的に表現しました。

実際の被害も相次いでいます。2024年8月にはSlack AIで、攻撃者がアクセス権を持たない非公開チャンネルからAPIキーなどを外部に持ち出せる脆弱性が公表されました。さらに2025年6月には、Microsoft 365 Copilotを標的とした世界初のゼロクリック型攻撃「EchoLeak」が報告され、攻撃者は細工したメールを1通送るだけで内部ファイルを外部サーバーへ送信できました。いずれも修正済みですが、理論上の弱点ではなく繰り返し悪用される実害であることを示しています。

攻撃手法も進化を続けています。複数モデルをまたぐ汚染の伝播、文書やGitHubのREADMEを通じたRAGサプライチェーン汚染、メールやコードを実行できるエージェントの乗っ取り、長期メモリへの命令注入による恒久的な改変などです。さらに複数LLMを使い分けるモデルルーターを狙い、最も防御の弱いモデルへ誘導する手口も登場しました。

経営層にとって影響は広範です。顧客向けチャットボットや社内コパイロット、チケット処理やクラウド運用の自動化、RAGを使うデータガバナンスまで及び、不正な操作の実行や機密データの漏えい、業務ロジックの改ざんを招きかねません。リスクはもはや「モデルが不適切な発言をした」程度にとどまらないのです。

対策として記事は、モデルの権限を必要最小限に絞ること、RAGを含む外部データをすべて敵対的とみなして分離すること、影響の大きい操作には人間の承認を必須化することなどを挙げています。最も重要なのは、LLMを自律的な意思決定者ではなく信頼できない解釈器として扱う発想の転換であり、これこそが現代のAIセキュリティの土台になると結論づけています。

出典：VentureBeat

OpenAIが無料ChatGPTの標準モデルを買い物強化で刷新

2026年06月25日 OpenAI ChatGPT 検索 GPT-5 エンジニア画像プロンプトベンチマーク RAG

消費者向け改善

ユーザー意図の理解を向上

買い物・地域推薦を強化

複数条件の指示にも対応

6月25日に無料層へ展開

開発者とAPI

chat-latestエイリアスを更新

本番用はgpt-5.5を推奨

文脈窓40万トークン

詳細を見る

OpenAIは6月25日、無料版ChatGPTの標準モデルであるGPT-5.5 Instantを更新しました。買い物や地域のおすすめ、複数条件の指示への対応を強化し、まず有料会員へ、続いて無料ユーザーへと順次展開しています。同社はXで「会話がより楽しくなった」と説明しましたが、具体的なベンチマーク数値は公開していません。

最大の変化はユーザー意図の理解です。旅行の計画や商品比較、近隣店舗の検索といった意思決定支援の場面で、質問の背後にある目的をより的確にくみ取れるようになりました。会話の途中で条件を追加したり反論したりしても、最初の回答に固執せず柔軟に対応する点が改善されています。

商取引や地域情報との連携も深まりました。位置情報を活用して近隣の選択肢を提示し、商品情報や画像を一つのまとまった回答に織り込みます。回答の体裁も定型的な箇条書きから、より温かみのある会話調へと調整されました。

開発者は更新版の挙動をchat-latestというAPIエイリアスから試せます。ただしこれは本番用のgpt-5.5モデルとは別物で、OpenAIは安定運用には引き続きgpt-5.5を推奨しています。今回はあくまでChatGPT側の更新であり、API向けモデル群の新リリースではない点に注意が必要です。

chat-latestの仕様は40万トークンの文脈窓と最大12万8千トークンの出力に対応します。料金は入力100万トークンあたり5ドル、出力30ドルで、キャッシュ入力は0.5ドルと9割引です。静的な指示を先頭に置くプロンプト最適化が促されます。

企業にとっての意味は新しい技術基盤ではなく、標準挙動の改善にあります。意図の推測や文脈の保持が向上すれば、調査や購買判断に使う従業員にとってChatGPTはより信頼できる道具になります。一方でメモリーソース機能は完全な監査証跡を提供しないため、RAGや社内ログのどれを正とするか企業側で定める必要があります。

出典：VentureBeat

NVIDIAとAWSが本番AI基盤を拡張、推論4.6倍に

2026年06月24日 NVIDIA Amazon AWS 検索ネットワークエンジニア推論 GPU クラウド投資エージェント RAG

新GPUインスタンス

EC2 G7を新たに提供

Blackwell世代GPU搭載

推論性能は最大4.6倍

最大8GPU構成に対応

検索と学習の強化

ベクトル検索を標準GPU化

索引は最大10倍高速・コスト4分の1

GB300で性能認定取得

詳細を見る

NVIDIAは6月24日、米AWSと連携し、本番規模のAI基盤を強化すると発表しました。両社はクラウド上の計算、検索、学習の各層を一体で改良し、企業が運用負担を抑えながらAIを実運用へ移せる環境を整えます。低遅延の推論や高速なベクトル検索、GPUの価格性能比といった課題に同時に対応する狙いです。

中核となるのが新インスタンス「Amazon EC2 G7」です。NVIDIAのRTX PRO 4500 Blackwell Server Edition GPUを搭載し、AI推論や映像処理、データ分析などの本番ワークロードに対応します。従来のG6と比べ、推論性能は最大4.6倍、グラフィックス性能は最大2.1倍に高まりました。

G7は最大8基のGPUと合計256GBのGPUメモリ、700Gbpsのネットワーク、最大7.6TBのローカルSSDを備えます。1基から8基までの構成に加え、ベアメタルも近く提供される予定です。利用者は過剰な設備投資を避け、用途に合わせて規模を最適化できる点が特徴です。

検索の層では、NVIDIAのライブラリ「cuVS」を使い、GPUによるベクトル索引をOpenSearch Serverlessの標準とします。これにより索引作成はCPU構成と比べて最大10倍速く、コストは4分の1に下がり、数十億規模のベクトルデータベースを1時間以内で構築できるとしています。検索拡張生成(RAG)や意味検索、エージェント型AIの基盤づくりが容易になります。

学習の層では、AWSがNVIDIA GB300向けに「Exemplar Cloud」認定を取得しました。NVIDIAが定める性能基準を満たしたことを示すもので、両社の協業による成果です。開発者は一貫した高性能基盤を前提に学習を進められ、クラウド選定や総保有コストの判断がしやすくなります。

今回の発表は、計算・検索・学習というAI基盤の全層を同時に底上げする内容です。共通する狙いは、運用チームの負担を増やさずに本番規模で性能を発揮できる環境を提供することにあります。企業がAIを計画段階から実運用へ移す動きが、さらに加速しそうです。

出典：NVIDIA公式

Mistralが文書解析の新OCRを投入、欧州主権を訴求

2026年06月24日 Anthropic マイクロソフト Amazon 検索 OCR 推論推論モデル米国欧州 MIT 資金調達評価額エージェントベンチマーク Mistral RAG

OCR 4の中身

文書を構造化データとして返す新世代モデル

位置情報・種別・信頼度を付与

170言語とPDF等に対応

自社環境で動く単一コンテナ提供

戦略と背景

1000ページ4ドルからの低価格

Anthropic輸出規制で主権論が現実化

200億ユーロ評価の資金調達狙い

詳細を見る

フランスのAI企業Mistralは2026年6月24日、文書知能モデル「OCR 4」を発表しました。単なる文字抽出にとどまらず、文書全体を構造化データとして返す点が特徴で、各ブロックに位置情報を示す枠、見出しや表といった種別、さらに単語ごとの信頼度スコアを付与します。15カ月でOCR技術の第4世代となり、即日でAPIやAmazon SageMaker、Microsoft Foundryなどから利用できます。

技術上の核心は構造化された出力にあります。従来のように平坦なテキストを並べるのではなく、各ブロックを枠で特定し、タイトルや表、署名などに分類したうえで信頼度を返します。これにより、抽出した事実を元の文書のどこに記載されていたかまで追跡でき、RAGや法令順守の業務で「この数値はどこから来たのか」という監査可能な答えを得られます。

Mistralは独立した評価者による比較で72%の勝率を得たと報告しています。ただし同社自身が採点上の誤差を公開し、集計値は確定的ではなく方向性を示すものだと注意を促しました。公開ベンチマークでは3位という指摘もあり、企業の導入担当者はベンダーの数値に頼らず、自社の文書と言語で独自に評価すべきだと記事は指摘します。

今回の発表は地政学的な追い風の中で行われました。6月12日、米商務省の輸出規制によりAnthropicは最新モデルへのアクセスを全面的に停止させられ、米国外の顧客が突然利用できなくなりました。Mistralが掲げる欧州AI主権の主張は、まさにこの事態で現実味を帯び、自社環境で完結する単一コンテナ提供が製品としての答えになっています。

価格は1000ページあたり4ドルからで、バッチ利用なら2ドルまで下がります。この水準なら10万ページの社内文書も200ドルで処理でき、大規模なデジタル化が現実的になります。一方で前日にはBaiduがMIT licenseの無償モデルを公開しており、自己ホスト型のオープンモデルと、企業向け機能を備えた商用サービスという二つの路線が鮮明になっています。

結局これはOCRの話ではなく、企業向けAI市場への入り口を巡る戦略だと記事は結論づけます。OCR 4はMistralの検索基盤や推論モデル、エージェント基盤へと連なる導線であり、同社は約200億ユーロの評価額での資金調達と2026年に10億ユーロの売上を目指しています。大手や急成長するオープンソース勢に対し、主権と構造化文書知能で欧州企業の予算を取り込めるかが焦点です。

出典：VentureBeat

F5、本番AIの脆弱なデータ経路を警告

2026年06月23日ワークフローネットワークエンジニア推論脆弱性ハルシネーション GPU クラウドクラウドサービス RAG

実証では露呈しない欠陥

ストレージ直結の脆弱性

本番トラフィックで障害連鎖

ノード障害でクラスタ全停止

停止がSLA違反に直結

データ配信層の構築

BIG-IPを制御点に配置

可観測性と自動切替

スループット維持を確認

詳細を見る

クラウドサービス企業のF5は、AIワークロードを実証実験から本番運用へ移す際、データ配信の経路がシステムの拡張性を左右すると指摘しました。ストレージと計算資源を直接つなぐ構成は、デモ環境では問題なく動く一方、持続的で同時並行的な本番トラフィックの下では破綻しやすいといいます。

問題の核心は、AIワークフローがS3ストレージを中核資源として扱うようになった点にあります。しかしストレージとクラスタ間のネットワークは、GPUを最適稼働させるための高スループットで途切れないデータ移動を前提に設計されていませんでした。同社のPaul Pindell氏は、単一のストレージノードが故障すると全トラフィックが劣化し、場合によってはクラスタ全体が停止すると述べています。

停止の代償は大きいといいます。推論パイプラインが停滞すればSLAと顧客体験の問題になり、RAGシステムが遅延すればモデルが最新の文脈を失い、不正確な応答やハルシネーションを招きます。同時に、高価なGPUが遊休状態となりコストを押し上げます。

F5はこの課題に対し、データ配信をネットワークが「単に動く」前提に頼らない第一級の基盤層として扱う方針を示しました。具体的には可観測性、プログラマビリティ、障害耐性の三つを組み込み、Dell ObjectScale向け構成ではBIG-IPをストレージと計算層の間に制御点として配置します。

この構成は、QoSや接続数制限によってストレージを過負荷から保護します。同社は第三者機関SecureIQLabの検証により、こうした保護がスループットを犠牲にしないことを確認したとしています。ハイブリッドやマルチクラウド環境では、統一的な可観測性とプログラム可能なトラフィック管理を組み合わせ、一貫した制御と回復力を実現する狙いです。

F5のHunter Smit氏は、永続的な実証段階から抜け出す組織は障害を常態と捉える設計規律を共有していると語ります。遅延や輻輳、部分的な障害が起きる前提で、それを吸収できるデータ経路を築くことが、本番運用と試作の分かれ目になるという見方です。

出典：VentureBeat

PaddleOCRが50言語対応の軽量OCR新版を公開

2026年06月22日検索 OCR 推論画像中国日本エージェントトランスフォーマー Hugging Face RAG

3階層のモデル

パラメータ1.5M〜34.5M

tiny/small/mediumの3層

用途別に最適サイズ選択

共通バックボーン採用

性能と展開

medium認識精度83.2%

v5比で検出・認識向上

50言語を1モデルで対応

Hugging Faceで提供

詳細を見る

中国の百度系PaddleOCRは6月22日、汎用OCRモデルの最新世代「PP-OCRv6」をHugging Faceで公開しました。文書やスクリーンショット、多言語画像、産業ラベルなど実環境のテキスト検出・認識を狙い、1.5M〜34.5Mパラメータの3階層で軽量さと精度を両立します。VLM全盛の時代に専用OCRの実用価値を示す動きです。

モデルはtiny、small、mediumの3層で構成されます。最小のtinyはエッジ端末向け、mediumはサーバー側の高精度処理向けと、用途に応じてサイズと精度を選べる設計です。small以上の2層は簡体字・繁体字・英語・日本語を含む50言語に対応します。

精度面では、PaddleOCR独自の複数シナリオ評価でmediumが検出Hmean86.2%、認識精度83.2%を記録しました。前世代のPP-OCRv5_serverと比べ、検出で4.6ポイント、認識で5.1ポイント向上しています。

技術面では、検出に大カーネルの軽量特徴ピラミッド「RepLKFPN」、認識に局所文脈と全体注意を組み合わせた「EncoderWithLightSVTR」を採用しました。小さく回転した文字や低解像度、複雑な背景といった難しい入力への対応力を高めています。

展開の柔軟性も特徴です。Transformers、ONNX Runtime、Paddle Inferenceの3つの推論基盤に対応し、`pip install paddleocr`で導入できます。出力は可視化画像と構造化JSONで保存でき、文書解析や検索、RAGやエージェントの処理に組み込めます。

出典：Hugging Face

IEEEがLLMオンライン講座を開講、技術者の実装力底上げへ

2026年06月19日エンジニア専門家脆弱性コンテンツコーディングデプロイエージェントプロンプトトランスフォーマー GRPO IEEE RAG RLHF LoRA

講座の中身

全5講座のオンラインプログラム

Transformer構造を数式から解説

PyTorchで学習パイプライン実装

RAG・RLHF・量子化まで網羅

ねらいと修了特典

プロンプトを超えた構築力育成

修了でデジタルバッジ付与

組織向け団体研修にも対応

詳細を見る

IEEEは2026年6月19日、技術者向けにLLMの仕組みを基礎から学ぶオンライン講座「Large Language Models Demystified」を開講したと発表しました。IEEE Learning Networkを通じて提供される全5講座構成のプログラムで、IEEE Educational ActivitiesがIEEE Computer Societyと共同で開発しています。

背景には、LLMを使う人と作れる人の差が急速に広がっている現状があります。LLMはメールや旅行計画に使う一般用途を超え、ソースコードの脆弱性検出や技術仕様の整理など、技術者の日常業務を支える基盤要素になりつつあります。市場は2030年まで年率約33%の成長が見込まれ、実装力は専門技能から必須要件へと変わりつつあります。

講座は単なるプロンプト術ではなく、生成AIの工学的な仕組みに踏み込む内容です。Transformerの自己注意機構や位置エンコーディングをNumPyとPythonで実装し、PyTorchでエンドツーエンドの学習パイプラインを構築します。LoRAなどのパラメータ効率化手法や量子化も扱います。

さらに最適化やアライメント、デプロイの段階では、RLHFやGRPO、RAG、エージェント型AIまで取り上げます。なぜモデルがそう動くのかを理解することで、開発者は試行錯誤から脱し、信頼性の高いAIツールを設計できるようになります。

修了者にはプロフェッショナル開発単位とIEEEのデジタルバッジが付与され、習得した専門性を証明できます。組織単位でチームを育成したい企業は、IEEEのコンテンツ専門家を通じて団体登録や研修プランの相談が可能です。

出典：spectrum.ieee.org

PixelRAG、画面読みでRAG精度向上・コスト10分の1

2026年06月12日検索品質保証画像エージェントプロンプトベンチマーク Pixel RAG

解析を捨てる手法

テキスト解析を完全に省略

ページを画像化して検索

Wikipedia全体3000万タイル化

性能とコスト

6ベンチで精度18.1%向上

エージェントのトークン10分の1

視覚分割が未解決課題

詳細を見る

米カリフォルニア大学バークレー校やプリンストン大学などの研究チームは2026年6月12日、文書を文字に変換せず画面画像のまま検索する新手法「Pixel RAG」を発表しました。従来のRAGはウェブページをテキストに解析してから索引化しますが、この変換工程が誤答の大半を生んでいると同チームは指摘します。

Pixel RAGはページをスクリーンショットとして描画し、その画像を索引化したうえで、抽出した断片を視覚言語モデル（VLM）に直接読ませます。VLMは人間と同じくレイアウトや構造を保ったままページを解釈できるため、表や見出し、強調表示といった情報の欠落を防げる点が特徴です。

研究チームはWikipedia全7百万記事を約3000万枚のタイルに分割し、6種類のベンチマークで検証しました。テキスト型RAGを全項目で上回り、事実質問のSimpleQAでは精度が71.6%から78.8%へ、表形式の質問では42.5%から48.8%へ改善しています。

とりわけ注目されるのが運用コストです。AIエージェントの検索基盤としてPixel RAGを使うと、消費プロンプトトークンが3750万からわずか360万へ激減し、コストは2〜4分の1に下がりました。画像圧縮を併用すれば、さらに3分の1の削減が見込めます。

一方で課題も残ります。ページを固定の画素高で機械的に分割するため、表や段落が途中で切れる「視覚的チャンク化」の問題が未解決です。研究チームはこれを今後の重要な研究領域と位置づけています。

実務面では、既存のテキスト検索を置き換えるのではなく、その上に視覚検索を重ねるハイブリッド運用が現実的な導入経路だと著者らは強調します。企業のRAG刷新を検討するリーダーにとって、段階的に精度とコストを改善できる選択肢といえそうです。

出典：VentureBeat

新研究、LLMの文脈を16倍圧縮しKVキャッシュ超え

2026年06月11日 GitHub 検索推論事前学習 GPU エージェントベンチマーク教師 Hugging Face RAG

技術の中身

入力を事前圧縮する新方式

デコーダ手前で16倍圧縮

従来比8.8倍高速

符号化器0.6Bと復号器4Bの構成

精度と実用性

4倍圧縮で精度91.76%維持

100万トークンも単一GPUで処理

RAG連携には調整が必要

詳細を見る

米ニューヨーク大学やコロンビア大学などの研究チームは2026年6月11日、大規模言語モデル（LLM）の入力文脈を圧縮する新手法「潜在文脈言語モデル（LCLM）」を発表しました。デコーダに到達する前に入力トークン列を圧縮することで、長大化する文脈が生む計算コストと処理速度の課題を解決します。モデルはHuggingFace上でオープンソース公開されました。

従来主流のKVキャッシュ圧縮は、全キャッシュを生成してから不要部分を削除します。これに対しLCLMはデコーダのprefill前に入力そのものを圧縮するため、高い圧縮率がそのまま計算量とメモリの削減に直結します。論文によると、長文脈ベンチマーク「RULER」で16倍圧縮時、KVキャッシュ基準より出力が8.8倍高速になりました。

精度の劣化が小さい点も特徴です。4倍圧縮では文脈を4分の1に減らしながら精度91.76%を保ち、無圧縮の94.41%から3ポイント未満の低下にとどまりました。16倍圧縮で入力の93.75%を除いた場合でも精度は75.06%で、同条件のKVキャッシュ手法をすべて上回りました。

アーキテクチャは0.6Bの符号化器と4Bの復号器を組み合わせ、3500億トークン超で訓練されました。継続事前学習、推論や長文脈タスクの教師ありデータ、細部を保持させる補助的な再構成タスクの3種を混ぜることで、圧縮と汎用性能の両立という従来の課題を克服しています。探索の結果、符号化器より復号器を拡大する方が効果的と判明しました。

実用面では既存のLLMと差し替えて使える設計です。共同責任者でコロンビア大学のミカ・ゴールドブラム氏は、文書を文脈に投入する前に圧縮器を通すだけだと説明します。人間が内容をざっと読んでから重要箇所を精読する動きに近く、エージェントが必要なテキストだけ選択的に復元する仕組みも示されました。

一方で課題も残ります。RAGパイプラインを持つ企業は、導入前に検索品質の指標に対して圧縮の挙動を検証する必要があります。さらに推論トレースのオンライン圧縮は未解決で、生成中に随時圧縮する素朴な手法が機能するかは今後の検証次第とされています。コードとモデルはGitHubとHuggingFaceで公開されています。

出典：VentureBeat

Hugging Faceハッカソンで小規模モデルのゲーム生成に挫折

2026年06月07日 NVIDIA GitHub Copilot GitHub Copilot Codex エンジニアプロンプトコンテキスト Hugging Face RAG

試行錯誤と失敗の過程

Nemotron 30Bでゲーム生成を試行

長文プロンプトでは動作せず

スキルカードでコンテキスト超過

RAG併用も画面は真っ白

方針転換と得られた教訓

複雑なゲームを断念しHTML生成に転換

時計やToDoリストは生成可能

Tetris級の複雑さで破綻

小規模モデルの限界が明確に

詳細を見る

Hugging Face主催のBuild Smallハッカソンで、参加者がNVIDIAのNemotron 30Bモデルを使い、Three.jsベースのゲームを自動生成するプロジェクトに挑戦しました。アニメ「The Amazing Digital Circus」に着想を得た「デジタルペット」が冒険＝ゲームを生成するというコンセプトでしたが、最終的にゲーム生成は実現できませんでした。

開発者はまず長文プロンプトでモデルに指示を与えましたが、生成されたゲームは正常に動作しませんでした。次にGitHub Copilotのスキルカードを導入したところ、短く設定していたコンテキストウィンドウを圧迫。ウィンドウを拡大しても問題は解消されませんでした。

さらにCodexでスキル情報を要約し、RAGで参照させる方式も試みました。この手法ではモデルの応答品質がやや改善したものの、生成されるゲームには必ず不具合があり、画面が真っ白になるケースが続出しました。

最終的にゲーム生成を断念し、シンプルなHTML生成ツールへと方針を転換しています。時計やToDoリスト、SnakeやBreakoutといった単純なゲームはワンショットで生成できるものの、Tetris級の複雑さになると破綻するとのことです。小規模モデルでの複雑なコード生成には依然として大きな壁があることを示す事例といえます。

出典：Hugging Face

Snowflakeがエージェントの誤回答防ぐコンテキスト層を発表

2026年06月02日マイクロソフト検索買収エージェントコンテキスト MCP Devin Snowflake RAG

二層構造の設計思想

Horizon Contextで業務定義を一元管理

Cortex Senseがデータから文脈を自動補完

顧客定義と推定情報を明確に分離

Open Semantic Interchangeで他社連携

企業導入の課題

ハイブリッド検索の採用意向が3倍に急増

意味層なきRAGでは回答がツールごとに不一致

監査可能な系譜追跡が評価基準に

安易な導入はデータ定義の混乱を露呈

詳細を見る

Snowflakeは2026年6月のSnowflake Summit 26で、AIエージェントが自信を持って誤った回答を返す問題に対処する新機能Horizon ContextとCortex Senseを発表しました。企業がRAGからハイブリッド検索へ移行するなかで、同じデータに対してエージェントやツールごとに異なる回答が返される課題が深刻化しており、VentureBeatの調査ではハイブリッド検索の採用意向が2026年1月の10.3%から3月に33.3%へ急伸しています。

Horizon Contextは、Snowflakeが買収したSelect Starの技術を基盤とする顧客管理型のレイヤーです。Postgres、SQL Server、Tableau、Power BIからメタデータをHorizon Catalogに統合し、すべてのエージェントやBIツールが同一の業務定義を参照できるようにします。Semantic View Autopilotが意味ビューを自動生成・改善し、手動のメンテナンス負担を軽減します。

一方のCortex Senseは、プラットフォームが顧客データと利用パターンから文脈を自動的に構築・強化する暗黙的なレイヤーです。Snowflake製品担当EVPのChristian Kleinerman氏は「Horizon Contextは顧客が明示的に宣言するもの、Cortex Senseは我々が暗黙的に導出するもの」と両者の違いを説明しています。この二層はCortex Searchを通じてSnowflakeのRAG基盤やCowork・CoCo製品と接続されます。

コンテキスト層の競争は激化しています。MicrosoftはFabric IQのビジネスオントロジーをMCP経由で公開し、RedisはIrisというコンテキスト・メモリ基盤を投入、Pineconeもベクトルデータベースからナレッジエンジンへの転換を図っています。IDCのDevin Pratt氏は「エージェントの信頼性を左右するのはモデルではなくコンテキスト層だ」と指摘しています。

企業にとっての課題も明確です。Moor Insights and StrategyのMike Leone氏は「安易なドロップイン製品は、データ定義の混乱をかえって顕在化させる」と警告しています。評価の鍵は、回答の根拠を監査できるガバナンスと系譜追跡、特定ベンダーに依存しないポータビリティ、そしてエージェント間で再利用可能な精度の3点です。コンテキスト層の整備が、エージェントAIの本番運用における最重要課題となっています。

出典：VentureBeat

Microsoft IQとRayfin、AIエージェントのデータサイロ問題に対処

2026年06月02日マイクロソフト検索エンジニア専門家デプロイエージェントコンテキスト Snowflake RAG

Microsoft IQの統合基盤

4種のコンテキストを統合提供

業務・知識・データ・Web情報を一元化

エージェントが単一接続で全情報を取得

Rayfinの役割と競合環境

エージェント生成アプリをFabric上に直接配置

SupabaseやNeonに対抗するガバナンス重視設計

アプリデータがOneLakeに蓄積されサイロを防止

SnowflakeやPineconeも同領域に参入

詳細を見る

MicrosoftはBuild 2026で、エンタープライズAIエージェントが生み出すデータサイロ問題に対処する2つの新施策を発表しました。AIエージェントはデプロイのたびにビジネスの文脈をゼロから学び直す必要があり、エージェントが自動生成するアプリケーションもそれぞれ独立したデータサイロを形成するという二重の課題がありました。これに対し、コンテキスト統合基盤「Microsoft IQ」とオープンソースSDK「Rayfin」を投入します。

Microsoft IQは、従来個別に存在していた4つのコンテキストソースを統合します。日常業務の情報を扱うWork IQ、組織の知識体系を管理するFoundry IQ、リアルタイムの業務データをモデル化するFabric IQ、そしてWeb上のグローバル情報を提供するWeb IQです。開発者は単一の統合ステップで、新しいエージェントをこれら全てのコンテキストに接続できます。

一方Rayfinは、エージェントが生成したアプリケーションをMicrosoft Fabric上に直接デプロイし、アプリデータをOneLakeに格納する仕組みです。Microsoft Fabric CTOのAmir Netz氏は、Rayfinで構築されたアプリのデータが組織のオントロジーを豊かにし、次のエージェントがさらに高度な文脈を利用できる双方向の関係だと説明しました。競合となるSupabaseやNeonとの違いは、ガバナンスが組み込まれている点です。

こうした共有コンテキストレイヤーの構築はMicrosoftだけの取り組みではありません。Snowflakeもセマンティック機能を発表し、PineconeはNexusプラットフォーム、Redisはコンテキスト・メモリ基盤を展開しています。VentureBeatの調査によれば、100人以上の組織でハイブリッド検索の導入意向が2026年第1四半期に3倍に急増しており、企業のRAG基盤整備が本格化しています。専門家はモデルの性能よりも実行の簡素化と信頼性確保が今後の焦点だと指摘しています。

出典：VentureBeat

NVIDIAが金融向け取引基盤モデルの構築支援を本格展開

2026年06月02日 NVIDIA Stripe AWS エコシステムエンジニア強化学習リスククラウドエージェント基盤モデルトランスフォーマー RAG

基盤モデルへの転換

個別AIモデルのサイロ化が限界に

トランスフォーマーで統一的な行動表現を学習

文脈理解により不正検知・与信の精度向上

手作業の特徴量設計が不要に

大手金融の採用状況

Revolutが240億イベントで基盤モデル構築

Mastercardが数百億件規模の独自モデル開発

Stripeが年間1120億ドルの不正をブロック

エコシステムの整備

NVIDIAが開発者向けテンプレートを公開

AWS・Nebiusのクラウド基盤で即時利用可能

詳細を見る

NVIDIAは2026年6月2日、金融機関が自社の取引データを活用してトランスフォーマーベースの基盤モデルを構築するための開発者向けテンプレート「Build Your Own Transaction Foundation Model」を公開しました。金融業界では不正検知・与信・レコメンドなど用途ごとに個別のAIモデルを運用してきましたが、サイロ化による非効率が課題となっており、統一的な基盤モデルへの移行が加速しています。

先行事例として、RevolutはNVIDIAと共同で「PRAGMA」と呼ばれる基盤モデル群を構築しました。26カ国・2600万ユーザーの240億件のイベントデータで訓練され、与信スコアリングや不正検知など複数領域で既存の専用モデルを上回る性能を示しています。従来数週間から数カ月かかっていた特徴量エンジニアリングが不要になった点も大きな成果です。

Mastercardは数百億件規模の匿名化された取引データで独自の大規模テーブル基盤モデルを開発中で、不正検知やパーソナライゼーションなど幅広い用途を見込んでいます。Adyenは1兆ドル規模の決済処理に基盤モデルを導入し、強化学習でコンバージョン最大化とリスク最小化を実現しています。Stripeは昨年1120億ドルの不正をブロックし、不正率を平均38%削減しました。

NVIDIAの調査によると金融機関の65%がすでにAIを活用し、42%がエージェント型AIの利用・評価を進めています。今回のテンプレートはAWSのSageMaker HyperPodやNebius AI Cloud上で利用可能で、EXL・Infosys・GFT・Thoughtworksなどのサービスパートナーが導入支援を提供します。既存のパイプラインに統合できる設計のため、ゼロからの再構築なしに基盤モデルの恩恵を得られる点が特徴です。

出典：NVIDIA公式

JetBrainsがMoE型コードモデルMellum2公開

2026年06月01日検索ワークフロー推論開発ツールエージェントプロンプト Hugging Face RAG

モデルの特徴

総120億パラメータのMoE構成

トークン毎は25億のみ活性化

推論速度が2倍以上高速

Apache 2.0で商用利用可

想定用途

ルーティングや要約など軽量処理

エージェントの補助タスク

自社環境へのプライベート展開

詳細を見る

開発ツール大手のJetBrainsは6月1日、120億パラメータのMixture-of-Experts（MoE）モデル「Mellum2」を公開しました。テキストとコードを対象に一から学習したモデルで、ライセンスは商用利用も可能なApache 2.0です。コード補完から出発したMellumの後継として、より広範なソフトウェア開発タスクへ用途を広げています。

最大の特徴は効率性にあります。総パラメータは120億ですが、MoE構成により1トークンあたり25億パラメータのみを活性化させ、モデル全体の容量を保ちつつ推論コストを抑えます。同社によれば、同規模のオープンモデルと競合する性能を保ちながら、推論速度は2倍以上に達するといいます。

JetBrainsはMellum2を、最大のモデルを必要としない低レイテンシ処理向けと位置づけます。具体的には、プロンプト分類やツール選択といったルーティング、文脈圧縮や要約を含む検索後処理、エージェントの計画・検証・変換などの補助タスクが対象です。これらは頻度が高く速度が重要なため、軽量モデルが適しているという考え方です。

同社はこうした役割を「focal（焦点）」モデルと表現します。大規模システム内の高頻度タスクに最適化した、速く役割の明確なモデルという位置づけです。スタック内の全モデルを置き換えるのではなく、システム全体を「より速く、安く、制御しやすく」することを目的に掲げています。

オープンかつ効率的に運用できる点から、独自コードや社内データを扱う自社ホスト環境への展開も想定されています。モデルはHugging Faceで公開され、アーキテクチャや評価手法は技術レポートで確認できます。IDE内やRAGパイプライン、エージェントワークフローなど、実運用での試用が可能な状態です。

出典：Hugging Face

LLM再学習不要の知識更新フレームワークMeMo登場

2026年05月29日 NVIDIA Gemini 検索推論ファインチューニング GPU 品質保証コンテキストベンチマーク教師 RAG

MeMoの仕組み

専用小型メモリモデルに新知識を格納

推論エンジンのLLMは凍結のまま利用

オープン・クローズド問わず接続可能

QAペア「リフレクション」で知識を蒸留

RAGとの比較と限界

長文推論でRAGを大幅に上回る精度

ノイズ混入時も精度低下2%未満

初期学習コストが課題

出典追跡が困難で監査要件に制約

詳細を見る

複数大学の研究チームが、LLMの知識を再学習なしで更新するフレームワーク「MeMo（Memory as a Model）」を発表しました。MeMoは新しい知識を専用の小型メモリモデルに格納し、推論を担う本体のLLMとは完全に分離して運用します。RAGのコンテキスト長制限やファインチューニングの破壊的忘却といった既存手法の課題を回避できる点が特徴です。

MeMoのアーキテクチャは、知識を蓄えるMEMORYモデルと推論を行うEXECUTIVEモデルの2層構成です。ユーザーの質問に対し、EXECUTIVEモデルがサブクエリに分解してMEMORYモデルに問い合わせ、得られた事実を統合して最終回答を生成します。MEMORYモデルの学習には、生テキストから数千のQAペア「リフレクション」を生成し、それを教師データとして使います。

ベンチマーク評価では、長文推論タスクNarrativeQAで53.58%の精度を達成し、最先端のグラフベースRAG手法HippoRAG2の23.21%を大きく上回りました。さらにEXECUTIVEモデルをGemini 3 Flashに差し替えるだけで精度が最大26.73%向上し、メモリモデルの再学習は不要でした。ノイズの多いデータでも精度低下は2%未満にとどまり、企業の雑多なナレッジベースへの耐性を示しています。

継続的な知識更新には「モデルマージ」手法を採用し、新規データで学習した差分パラメータを既存のMEMORYモデルに統合します。フル再学習に比べ11〜19%の精度低下というトレードオフはあるものの、計算コストを大幅に削減できます。

一方で課題も残ります。リフレクション生成にNVIDIA H200で約240GPU時間、14Bパラメータのメモリモデル学習に約180GPU時間の初期コストが必要です。また回答がパラメトリック記憶から合成されるため、情報の出典を特定できず、厳格な監査要件のある業務には不向きです。研究チームは、単純な検索にはRAG、複数文書を横断する統合推論にはMeMoという使い分けや、両者を組み合わせたハイブリッド構成を推奨しています。

出典：VentureBeat

企業AIに潜む4つの新型技術的負債が失敗リスクを増大

2026年05月25日生産性検索 AI導入エンジニアリスクハルシネーションクラウドセキュリティ CI/CD MIT 投資プロンプト基盤モデル Intel RAG

AI特有の負債4類型

プロンプト負債はバージョン管理なき未検証コード

モデル依存負債で外部API変更時に性能劣化

検索負債はRAGの古いデータで誤回答を誘発

評価負債でCI/CD相当の品質監視が不在

組織的な対策

プロンプトをコードとして管理・テスト

継続的評価パイプラインの構築が必須

説明可能性とデータ系譜の標準化

CXO主導の負債削減プログラムと予算確保

詳細を見る

企業のAIプロジェクトの95%が本番運用や価値創出に至らないとするMITの調査結果がある中、VentureBeatは2026年5月25日、従来のコードベースに留まらないAI特有の技術的負債が企業のAI導入リスクを急速に拡大させていると報じました。S&P; Global Market Intelligenceの調査でも、2025年にAI施策を撤回した企業は42%に上り、前年の17%から急増しています。

記事が指摘する新型負債は4つです。第一のプロンプト負債は、バージョン管理やテストなしに蓄積された「スパゲティコード」のようなプロンプト群を指します。第二のモデル依存負債は、外部の基盤モデルAPIに依存することで、モデル更新時に性能が変動し再現性が失われる問題です。第三の検索（RAG）負債は、社内データの重複や陳腐化により、技術的には正しくても古い情報を返してしまう現象で、ハルシネーションより検出が困難とされます。第四の評価負債は、プロンプト向けCI/CDに相当する継続的テスト基盤が存在しないことを意味します。

これら4つの負債は従来型の技術的負債と複合的に積み重なり、コンピューティングコストの高騰、AI出力の不正確さ、人手による例外処理の増加という形で顕在化します。さらにAIシステムの所有権がエンジニアリング・プロダクト・データ・事業部門にまたがるため、障害発生時の責任が不明確になりがちです。AI生成コードの急速な普及も、従来型コードベースの保守性を悪化させる要因として挙げられています。

記事は対策として3つの原則を提示しています。まずプロンプトをコードと同等に扱い、バージョン管理・文書化・厳格なテストを適用すること。次に技術指標とビジネス指標の双方を測定する継続的評価パイプラインを構築し、AIオブザーバビリティを統合すること。そして全てのAI出力にデータ系譜・使用モデル・処理手順の説明可能性を組み込み、監査と修正を可能にすることです。

筆者のVikram Venkat氏（Cota Capital プリンシパル）は、これらの取り組みにはセキュリティやクラウド近代化と同様のCXOレベルの投資プログラムが不可欠だと強調しています。AIシステムは静的なコードではなく、企業スタック全体と相互作用する「生きたシステム」であり、設計段階からAI負債を予防する企業こそが持続的な生産性向上を実現できると結論づけています。

出典：VentureBeat

RAG代替手法DCI、検索コスト30%削減

2026年05月22日 GitHub Claude 検索 GPT-5 Sonnet 品質保証 MIT エージェントベンチマーク RAG

DCIの仕組みと背景

ベクトル検索を迂回しコーパス直接操作

grep・findなど標準CLIツールで検索

埋め込みインデックスのデータ鮮度問題を解消

エージェントが仮説検証を多段階で実行

性能とコスト効果

BrowseComp-Plusで精度69%→80%に向上

APIコスト約30%削減を実現

マルチホップQAで既存手法を30.7ポイント上回る

実用上の制約と展望

コーパス規模拡大時に精度低下の課題

既存ベクトル検索とのハイブリッド運用を推奨

詳細を見る

複数大学の研究チームが、AIエージェントの情報検索において従来のRAG（検索拡張生成）を代替する新手法「Direct Corpus Interaction（DCI）」を発表しました。DCIはベクトルデータベースを介さず、grep・find・sedなどの標準的なコマンドラインツールでコーパスを直接検索する仕組みです。論文によれば、従来のRAGでは埋め込みモデルによる類似度検索が「エージェントが見られる情報を早い段階で決めてしまう」ボトルネックになっていました。

DCIでは、エージェントがターミナル環境でシェルパイプラインを組み合わせ、正規表現による厳密な文字列検索や複数条件の絞り込みを実行します。これにより、エラーコードやファイルパスなど意味的類似検索では捉えにくい長尾の詳細情報を正確に抽出できます。さらに、埋め込みインデックスの再構築が不要なため、日次レポートやログなど常に変化するデータにもリアルタイムで対応します。

ベンチマーク評価では、Claude Sonnet 4.6を基盤とするDCI-Agent-CCがBrowseComp-Plusで精度80.0%を達成し、従来のベクトル検索手法の69.0%を大きく上回りました。同時にAPIコストは1,440ドルから1,016ドルへと約30%削減されています。軽量版のDCI-Agent-Liteも、GPT-5.4 nanoモデルで従来のo3モデル＋検索の組み合わせに匹敵する性能を600ドル以上安く実現しました。

一方で課題も明確です。コーパス規模が10万件から40万件に拡大すると精度が大幅に低下し、ツール呼び出し回数も増加します。研究チームは「DCIは既存のベクトル検索の完全な代替ではなく補完」と位置づけ、意味検索で候補を広く取得し、DCIで精密な検証を行うハイブリッド構成を推奨しています。コードはMITライセンスでGitHubに公開されており、実務での検証が可能です。

出典：VentureBeat

LLM記憶を0.12%の追加パラメータで実現する新手法

2026年05月21日 GitHub Qwen 検索推論 GPU エージェントコンテキスト Hugging Face RAG

delta-memの仕組み

固定サイズ行列に履歴を圧縮

モデル本体の重みは凍結のまま

デルタルール学習で動的に更新

ゲート機構で忘却と記憶を制御

性能と効率の両立

Memory Agent Benchで29%→38%に向上

テスト時学習は26→50点にほぼ倍増

GPU消費量は未修正モデルとほぼ同等

実用化の方向性

RAGとのハイブリッド構成が現実解

詳細を見る

Mind Labと複数大学の研究チームは2025年5月、LLMエージェントの長期記憶問題を解決する新手法「delta-mem」を発表しました。この手法はエージェントの過去のやり取りを固定サイズの行列に圧縮し、モデル本体を変更せずに動的な記憶を実現します。追加パラメータはバックボーンモデルのわずか0.12%にとどまり、競合手法の76.40%と比較して圧倒的に軽量です。

従来のアプローチには大きな課題がありました。コンテキストウィンドウの拡張はコストが増大し、トークン数が増えるほど二次関数的に計算量が膨れ上がります。RAGは外部検索の遅延や統合の複雑さを伴います。パラメトリック手法は学習後に固定され、推論時の新情報に適応できません。delta-memはこれらの問題を、連想記憶の「オンライン状態」として履歴を保持することで解決しています。

技術的には、LLMの隠れ状態を行列に射影して過去の記憶を検索し、数値的な補正としてモデルの推論に適用します。更新は「ゲート付きデルタルール」で制御され、どの程度の旧記憶を保持し、新記憶をどれだけ反映するかを自動調整します。更新戦略は3種類あり、大規模モデルにはシーケンス単位の書き込み、小規模モデルにはマルチステート書き込みが有効と判明しました。

Qwen3-4B-Instructでの評価では、平均スコアが凍結ベースラインの46.79%から51.66%に向上しました。記憶集約型のMemory Agent Benchでは29.54%から38.85%へ改善し、テスト時学習サブタスクでは26.14から50.50へとほぼ倍増しています。32,000トークンの推論テストでも、GPU消費量は未修正モデルとほぼ同一でした。

研究チームはコードをGitHub、学習済みアダプタの重みをHugging Faceで公開しています。共著者のJingdi Lei氏は、delta-memは高速で継続的に更新される「作業記憶」として最適であり、正確な事実の検索にはRAGが依然として適していると述べています。企業のAIスタックは今後、モデル内部の短期作業記憶とRAGによる長期明示記憶の階層構造へ進化していくとの見通しを示しました。

出典：VentureBeat

企業AIエージェントの失敗原因は「意思決定文脈」の欠如

2026年05月20日検索エコシステムワークフロー創業者推論スタートアップエージェント RAG

RAGの限界と課題

RAGは文書検索のみで意思決定文脈を返せない

取得情報の適用可否をエージェントが判断できず

多段階ワークフローで誤りが複利的に蓄積

意思決定文脈グラフの仕組み

適用可能性・時間・決定経路の3原則で構造化

ニューロシンボリックAIで非構造データを自動整理

検証済み行動を凍結し非回帰性を担保

企業導入への展望

99.999%の信頼性を目指す設計思想

自動オントロジー生成の実用性が今後の焦点

詳細を見る

企業向けAIエージェントがパイロット段階から先に進めない根本原因として、「意思決定文脈」の欠如が指摘されています。Neo4jエコシステムのスタートアップRippletideは、この課題を解決する意思決定文脈グラフというフレームワークを開発しました。共同創業者のYann Bilien氏が、その設計思想と技術的アプローチをVentureBeatに語りました。

現在主流のRAGアーキテクチャは、意味的に関連する文書の検索には優れていますが、取得した情報が当該意思決定に適用可能かどうかまでは判断できません。Northwest AI ConsultingのWyatt Mayham氏は「検索と適用可能性の間にあるギャップが最大の課題」と指摘します。期限切れの価格例外や管轄限定の安全方針など、文脈を見落とすとエージェントは「自信を持って間違った行動を取る」結果になります。

意思決定文脈グラフは、適用可能性、時間認識型メモリ、決定経路の3原則で構築されます。すべてのルールや例外に有効期間が付与され、「当時何が正しかったか」と「今何が正しいか」を区別して推論できます。ニューロシンボリックAIがパターン認識と形式論理の符号化を担い、非構造データから自動的にオントロジーを生成します。

最大の特徴は非回帰性です。エージェントが新たな解決策を探索し、満足な結果が得られると、その行動シーケンスをグラフに凍結します。以降の探索はこの検証済みの基盤から始まるため、新しいスキルの習得が既存の正しい行動を上書きすることがありません。Bilien氏は「回帰し続ける限り完全な自己学習モデルは実現しない」と強調します。

銀行の大量トランザクション処理のように99.999%の信頼性が求められる領域で、このフレームワークは大きな可能性を持っています。ただしMayham氏は、自動オントロジー生成が企業の雑多な実データに耐えられるかが「常に難しい部分だ」と指摘しており、実運用での検証が今後の焦点となります。

出典：VentureBeat

NVIDIAとGoogle Cloud、開発者コミュニティ10万人突破で新学習コース拡充

2026年05月19日 Google OpenAI NVIDIA Salesforce Gemini シミュレーションエンジニア推論 GPU インフラコンテンツロボットエージェント Gemma RAG Google DeepMind

開発者支援の拡充

JAX学習パスを新設

NVIDIA Dynamo推論最適化ラボ追加

月例開発者ライブ配信を開始

コミュニティ参加者10万人突破

責任あるAIへの取り組み

SynthID電子透かし技術で協業

NVIDIA Cosmosモデルへの透かし統合

AI生成コンテンツの信頼性確保

フルスタック基盤の強化

Gemma 4とNemotronの組み合わせ活用

プロトタイプから本番環境へ拡張可能

詳細を見る

NVIDIAとGoogle Cloudは2026年5月19日、Google I/Oカンファレンスにおいて、両社の共同開発者コミュニティが10万人を突破したことを発表しました。昨年のGoogle I/Oで立ち上げたこのコミュニティに、JAXライブラリの新学習パスやNVIDIA Dynamoの推論最適化コードラボなど新たなリソースを追加し、AI開発者の育成を加速します。

コミュニティでは、開発者がNVIDIAのGPUアクセラレーション技術とGoogle Cloudのプラットフォームを組み合わせ、本番環境で使えるAIアプリケーションを構築しています。具体的には、Google Kubernetes Engine上でのRAGアプリケーション開発や、エージェント型ワークロードの可観測性実装などが進んでいます。スポーツ分析やエンタープライズデータパイプラインといった実用的なユースケースでの検証も行われています。

責任あるAIの分野では、NVIDIAがGoogle DeepMindのSynthID技術で業界初のパートナーとなりました。SynthIDはAI生成コンテンツに電子透かしを埋め込む技術で、NVIDIA Cosmosワールドファウンデーションモデルの出力に適用されます。ロボットや自律機械向けの3D知覚・シミュレーション機能を持つCosmosモデルに透明性をもたらし、開発者がエージェント型アプリケーションをより責任ある形で展開できるようにします。

インフラ面では、Google Cloud NextでNVIDIA Vera Rubin搭載のA5XインスタンスやGoogle DeepMindのGeminiモデルを含むフルスタックプラットフォームを拡張しました。OpenAIやSalesforceなど大手企業も活用しており、プロトタイプからエンタープライズ規模のワークロードまでシームレスに拡張できる環境が整っています。開発者はGemma 4、NVIDIA Nemotron、Google Agent Development Kitなどのオープンモデルとツールを組み合わせ、Blackwell GPU搭載のG4 VM上でマルチエージェントアプリケーションを構築できます。

出典：NVIDIA公式

PaddleOCR 3.5、Transformers推論に対応

2026年05月18日 OCR エンジニア推論インフラ画像エージェントトランスフォーマー Hugging Face RAG

主な変更点

Transformersを推論バックエンドに追加

engineパラメータでバックエンド切替可能

dtype・デバイス配置等を柔軟に設定

パイプライン管理はPaddleOCR側が担当

開発者への影響

HuggingFace中心の環境と自然に統合

RAG・文書AI構築の前処理が容易に

Hub経由のモデル配布に対応

高スループット用途にはpaddle_staticを推奨

詳細を見る

PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。

RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります。

使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。

注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。

出典：Hugging Face

グラフDB併用RAGで多段推論の精度向上へ

2026年05月17日 Meta 検索 ERP エンジニア推論 RAG

ベクトル検索の限界

類似度検索は構造的関係を喪失

多段推論の問いにLLMが幻覚を生成

サプライチェーン等の連鎖構造に弱い

ハイブリッド検索の設計

取り込み時にエンティティと関係を抽出

Neo4j等のグラフDBにベクトルを属性保存

ベクトル検索→グラフ走査の2段階検索

本番運用の課題と判断基準

検索レイテンシは200-500msに増大

セマンティックキャッシュで頻出クエリを高速化

詳細を見る

グラフ強化型RAGのアーキテクチャパターンを解説する技術記事が、2026年5月17日にVentureBeatで公開されました。MetaやCogneeでの実務経験を持つエンジニアが、ベクトル検索のみのRAGが企業ドメインで抱える構造的限界を指摘し、グラフデータベースを併用するハイブリッド検索パターンの参考実装を示しています。

標準的なRAGはドキュメントをチャンク分割しベクトルDBに格納しますが、この手法では階層・依存・所有といった明示的な関係性が失われます。たとえばサプライチェーンにおいて「部品Xの遅延が顧客Yの納品にどう影響するか」という多段推論の質問に対し、ベクトル検索だけでは構造的なリンクを復元できず、LLMが幻覚を生成するか回答不能に陥ります。

提案されるハイブリッドアーキテクチャは3層構成です。取り込み層ではLLMやNERモデルでエンティティと関係を抽出し、ストレージ層ではNeo4j等のグラフDBにノードの属性としてベクトル埋め込みを保存します。検索層ではベクトルスキャンでエントリポイントを特定した後、Cypherクエリでグラフを走査し下流への影響を構造的に把握します。

本番環境への展開ではレイテンシとデータ整合性が課題になります。グラフ走査はベクトル検索のみの50-100msに対し200-500msを要するため、コサイン類似度0.85以上の類似クエリにはキャッシュを返すセマンティックキャッシュで対処します。また関係の陳腐化を防ぐため、TTL設定やERPからのCDCパイプラインによる同期が推奨されています。

記事は導入判断のフレームワークも提示しています。フラットなコーパスや広範な質問、厳格なレイテンシ要件にはベクトルのみのRAGが適する一方、規制産業で説明可能性が求められる場合や多段関係に依存する回答が必要な場合にはグラフ強化型RAGが有効とされています。

出典：VentureBeat

IBMが97Mパラメータで最高精度の多言語埋め込みモデルを公開

2026年05月14日 LangChain 検索 Llama 推論 GPU コンテキストベンチマークトランスフォーマー LlamaIndex RAG

小型モデルの性能躍進

97Mパラメータで同規模最高の検索精度

MTEB多言語検索で60.3を記録

前世代R1から12.2ポイント改善

コンテキスト長を512から32Kトークンに拡大

実用性重視の設計思想

Apache 2.0ライセンスで商用利用可

200以上の言語と9種のプログラミング言語に対応

LangChain等の主要フレームワークに1行で導入可能

311Mモデルの総合力

MTEB多言語検索65.2で上位

Matryoshka対応で次元削減時も精度維持

詳細を見る

IBMは2026年5月14日、オープンソースの多言語埋め込みモデル「Granite Embedding Multilingual R2」を発表しました。97Mパラメータのコンパクトモデルと311Mパラメータのフルサイズモデルの2種類で、いずれもApache 2.0ライセンスのもと、200以上の言語と9種類のプログラミング言語に対応します。

最大の注目点は97Mパラメータモデルの検索性能です。MTEB多言語検索ベンチマークで60.3を記録し、100M未満のオープンな多言語埋め込みモデルとしては最高スコアとなりました。同規模で次点のmultilingual-e5-smallの50.9を9.4ポイント上回っています。前世代のR1モデルからはアーキテクチャの刷新やトレーニング手法の改良により、12.2ポイントの大幅な改善を実現しています。

技術面では、エンコーダをXLM-RoBERTAからModernBERTに刷新し、コンテキスト長を512トークンから32,768トークンへ64倍に拡大しました。これにより長文文書の検索精度が劇的に向上し、LongEmbedベンチマークでは31.3ポイントの改善を記録しています。法務文書や技術マニュアルなど、実務で扱う長い文書の検索において大きな恩恵をもたらします。

311MモデルはMatryoshka表現学習に対応しており、768次元の埋め込みを256次元に削減してもMTEB多言語検索で0.5ポイント低下にとどまります。ストレージや計算コストを3分の1に抑えつつ高い検索品質を維持できるため、大規模な本番環境への導入に適しています。

企業利用を強く意識した設計も特徴です。MS-MARCOデータセットや非商用ライセンスのデータを使用せず、IBMが独自にキュレーションしたデータで学習しています。sentence-transformersやLangChain、LlamaIndex、Haystack、Milvusといった主要フレームワークにモデル名を1行変更するだけで導入できるため、既存のRAGパイプラインへの組み込みも容易です。ONNX・OpenVINO形式のウェイトも同梱されており、GPUなしでのCPU推論にも対応しています。

出典：Hugging Face

業務AIアプリがそのまま学習基盤に、ML人材不要の独自モデル構築

2026年05月14日 Qwen Llama 専門家推論ファインチューニングリスクコンプライアンス医療基盤モデル教師 RAG

Alchemyの仕組み

業務アプリの出力を自動で学習データ化

専門家の修正がそのまま教師データに

Expert Nano Modelsで業務特化

モデル重みは企業側が完全所有

既存手法との違い

RAGと従来ファインチューニングの第三の選択肢

別途データ整備やML人材が不要

Llama・Qwen等の基盤モデルに対応

導入効果と課題

行動療法企業が記録作業を最大87%短縮

プラットフォーム依存というトレードオフ

詳細を見る

サンフランシスコのEmpromptu AIが、企業向けカスタムAIモデル構築プラットフォーム「Alchemy Models」を発表しました。企業が運用中のAIアプリケーションから生まれる出力データを自動で収集し、社内の専門家が修正・検証した結果をそのまま学習データとして活用します。別途データセットを用意する必要がなく、ML専門チームなしでドメイン特化モデルを構築できる点が最大の特徴です。

従来、企業がAIモデルをカスタマイズするには、RAG（推論時に外部知識を参照）か、独自データセットを準備してファインチューニングするかの二択でした。Alchemyはこの両者とは異なり、業務アプリケーションそのものをデータパイプラインとして機能させます。生成されるモデルは「Expert Nano Models」と呼ばれる小規模な業務特化型で、評価・ガバナンス・コンプライアンス管理もパイプライン内で一体運用されます。

CEOのShanea Leven氏は「すべての顧客がビジネスをどう守るかに悩んでいるが、その道筋が見えていない」と指摘します。Alchemyでは利用が増えるほど学習シグナルが蓄積し、モデル精度が向上するデータフライホイールが働きます。基盤モデルはLlamaやQwenなどに対応し、重みは顧客が完全に所有できます。

早期導入企業の行動療法企業Ascent Autismでは、セッション記録や保護者向け報告書の作成にAlchemyを活用。従来1〜2時間かかっていた文書作成が10〜15分に短縮され、最大87%の時間削減を実現しました。担当者は文書を一から書く作業から、生成結果の編集・品質確認へと役割が変化しています。

ただし課題もあります。AlchemyはEmpromptuのプラットフォーム上でのみ動作するため、ベンダーロックインのリスクが伴います。また、有効なファインチューニングには一定量の本番データの蓄積が必要で、初期段階ではベースモデルのまま運用する期間が発生します。ヘルスケア・金融・法務・小売といった規制の厳しいデータ集約型業界を主要ターゲットとしており、汎用モデルの出力ミスマッチが大きい領域ほど効果が見込まれます。

出典：VentureBeat

最先端LLMでも文書の25%を静かに破壊する

2026年05月13日マイクロソフト Gemini Claude 検索ワークフローシミュレーション Opus コンテンツエージェントベンチマーク RAG

ベンチマークが暴く実態

52専門領域310環境で検証

平均50%の文書劣化

最先端モデルでも25%破損

Python以外の領域で深刻な低スコア

破損の特徴と対策

小さな蓄積でなく突発的な大規模崩壊

高性能モデルほど巧妙な改変で発覚困難

汎用ツール付与で性能がむしろ悪化

ドメイン特化ツールの構築が不可欠

詳細を見る

Microsoft Researchの研究チームが、LLMに文書編集を委任する作業の信頼性を測定するベンチマーク「DELEGATE-52」を開発しました。52の専門領域にわたる310の作業環境で、20回の連続編集をシミュレーションした結果、全モデル平均で文書内容の50%が劣化し、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4といった最先端モデルでも25%が破損することが判明しています。

特筆すべきは破損のパターンです。小さなエラーが徐々に蓄積するのではなく、劣化の約80%は1回のやり取りで文書の10%以上が消失する突発的な大規模障害によって引き起こされます。さらに弱いモデルが主にコンテンツを削除するのに対し、高性能モデルは既存の内容を巧妙に書き換えてしまうため、人間のレビューで発見するのが極めて困難です。

コード実行やファイル操作などの汎用ツールをエージェントに与えると、むしろ平均6%性能が悪化することも示されました。研究者は、汎用ツールではなく、ドメイン固有の狭い範囲に絞ったツールを構築すべきだと指摘しています。RAGパイプラインについても、単発の検索ベンチマークではなく複数ステップのワークフローで評価すべきだと警告しています。

研究チームは、完全自律型AIエージェントへの過度な期待に警鐘を鳴らしつつも、改善速度には楽観的な見方を示しています。GPTシリーズだけでも18か月で20%未満から約70%へとスコアが向上しました。ただし企業環境の規模と多様性を考えると、カスタムのドメイン特化ツール構築は今後も欠かせないと結論づけています。

出典：spectrum.ieee.org

LLMは文書の25%を静かに改変する

2026年05月13日マイクロソフト Gemini Claude シミュレーション Opus 音楽エージェントコンテキストベンチマーク RAG

委任作業の落とし穴

52専門領域310環境で検証

20回の反復編集で平均50%劣化

最優秀モデルでも25%が変質

Python以外の領域で信頼性不足

破局的失敗の構造

劣化の80%は突発的大規模障害

高性能モデルほど巧妙な改変

汎用ツール付与で性能6%悪化

RAG評価は多段階検証が必須

詳細を見る

Microsoft Researchの研究チームが、LLMに文書編集を委任する作業の信頼性を測定するベンチマーク「DELEGATE-52」を発表しました。会計、ソフトウェア工学、結晶学、音楽記譜など52の専門領域にわたる310の作業環境を用意し、19のモデルに対して20回の連続編集タスクを実行させた結果、全モデル平均で文書内容の50%が劣化することが明らかになりました。

評価手法には機械翻訳のバックトランスレーションに着想を得た「往復リレー」方式が採用されています。編集指示とその逆操作をペアにし、元の文書がどれだけ正確に復元されるかを自動測定します。各ラウンドは独立した会話セッションで実施されるため、モデルは直前の作業を「覚えて元に戻す」ことはできず、純粋な編集能力が問われます。

Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4といった最上位モデルでも平均25%の文書内容が損なわれました。注目すべきは劣化パターンの違いです。低性能モデルは内容を削除する傾向がある一方、高性能モデルはテキストを残しつつ微妙に歪曲・幻覚を混入させるため、人間による検出がはるかに困難になります。劣化の約80%は徐々に蓄積するのではなく、一度に10%以上の内容が失われる突発的な破局的失敗に起因していました。

実務への示唆も重要です。コード実行やファイル操作などの汎用ツールを与えると性能はむしろ6%悪化し、ドメイン特化型ツールの必要性が浮き彫りになりました。RAGパイプラインにおいても、ノイズの多いコンテキストは2回のやり取りでは1%の劣化にとどまるものの、長期シミュレーションでは2〜8%に膨れ上がります。研究者は、自律エージェントの導入には短く透明性の高いタスク設計と、段階的な人間レビューが不可欠だと指摘しています。

出典：VentureBeat

TechCrunch発AI用語集、AGIから強化学習まで網羅

2026年05月09日 OpenAI Meta ChatGPT Claude Llama 推論強化学習ハルシネーション半導体データセンター AGI コーディングデバッグエージェント CoT RAG RLHF

基礎用語の定義

LLMの仕組みと主要サービス

トークンの概念と課金モデル

推論と学習の明確な区別

技術手法の解説

思考の連鎖で推論精度が向上

蒸留による小型モデル生成手法

詳細を見る

TechCrunchが、AI分野で頻出する専門用語を網羅的にまとめた用語集を更新しました。AGI（汎用人工知能）からバリデーションロスまで、業界の基本概念を平易な言葉で解説しています。「LLM」「RAG」「RLHF」といった略語に戸惑う読者を想定し、随時更新される生きたドキュメントとして位置づけられています。

大規模言語モデル（LLM）については、ChatGPTやClaudeなどの基盤技術として紹介されています。数十億のパラメータで言語の関係性を学習する仕組みが説明されており、トークンは人間の言語をAIが処理可能な単位に分割する基本概念として定義されています。企業がトークン単位で課金するビジネスモデルにも触れられています。

注目すべきは、AIエージェントやコーディングエージェントといった最新概念の整理です。AIエージェントは経費精算や予約といった複数ステップのタスクを自律実行するツールとして定義されています。コーディングエージェントはその特化版で、コードの記述・テスト・デバッグを最小限の人間監督で行うものとされています。

業界特有の新語も取り上げられています。RAMageddonは、AIデータセンターによるメモリチップの大量消費がゲーム機やスマートフォンなど他産業に波及し、価格高騰を招いている現象を指します。ハルシネーション（幻覚）問題も重要項目として扱われ、ドメイン特化型AIの開発が対策の一つとして示されています。

技術手法としては、思考の連鎖による推論精度の向上、強化学習によるLLMの安全性改善、蒸留による小型高効率モデルの生成が解説されています。オープンソースとクローズドソースの対比では、MetaのLlamaとOpenAIのGPTを例に挙げ、AI業界の根本的な論点として位置づけています。

出典：TechCrunch

OncoAgent、がん診療AIをオープンソースで実現

2026年05月09日 GitHub Qwen 検索推論推論モデルクラウドポリシーエージェントプロンプト CoT Hugging Face RAG LoRA

システム構成と技術基盤

8ノードのLangGraphで臨床推論を分解

9Bと27Bの2段階モデルで症例難度に応じ切替

70超のNCCN/ESMOガイドラインをRAGで参照

3層の安全検証で幻覚出力を遮断

MI300Xでの学習成果

26.7万症例のQLoRA学習を約50分で完了

合成データ生成はAPI比56倍の高速化

全工程を1台で完結し患者データの外部送信なし

詳細を見る

オープンソースのがん領域臨床意思決定支援システム「OncoAgent」の技術論文が、Hugging Faceブログで2026年5月9日に公開されました。OncoAgentは、LangGraphによる8ノードのマルチエージェント構成と、4段階の補正RAGパイプラインを組み合わせ、NCCNやESMOなど70以上の医師向けガイドラインに基づく回答生成を実現しています。患者データを外部クラウドに送信しない「Zero-PHI」ポリシーを掲げ、院内オンプレミス環境での完結運用を前提に設計されています。

モデルは症例の複雑さに応じて2段階に分かれます。加重スコアリングにより、ステージIVや複数遺伝子変異を伴う高難度症例は27Bパラメータの深層推論モデル（Tier 2）へ、それ以外は9Bパラメータの高速トリアージモデル（Tier 1）へ自動ルーティングされます。いずれもQwen系モデルをベースに、QLoRAで微調整されています。

学習には実症例と合成データを合わせた26万6,854件のOncoCoTコーパスが使われました。AMD Instinct MI300X（192GB HBM3）上でUnslothフレームワークとシーケンスパッキングを活用し、当初5時間と見積もられた学習を約50分に短縮しています。合成データ生成もAPI経由の毎時120件に対し、MI300X上では毎時6,800件と56倍の速度を達成しました。

安全面では、検索ゲート・信頼度ゲート・リフレクション批評・人間介入（HITL）の4層構造を採用しています。批評ノードはLLMではなく決定的コードで動作するため、敵対的プロンプトによる安全機構の迂回を防ぎます。RAGパイプラインでは、コサイン距離0.10を閾値とする反幻覚ポリシーにより、ドメイン外の入力には推奨を一切生成しない設計です。

現時点での課題として、学習データの約36%が合成症例であり、腫瘍専門医による大規模な精度検証はまだ実施されていません。ガイドラインも主に英語のNCCNが対象で、ESMOや他言語の臨床資料への対応は今後の課題です。コード・アダプタ重み・合成コーパスはHugging FaceとGitHubで公開予定とされています。

出典：Hugging Face

Anthropic、エージェント記憶・評価・連携を統合し企業ツール市場に攻勢

2026年05月08日 Anthropic マイクロソフト Claude ワークフローリスクインフラコンプライアンスエージェントコンテキスト RAG

3つの新機能の概要

Dreamingでセッション間の記憶を自律学習

Outcomesで評価基準を実行層に内蔵

リードエージェントがタスクを分割委任

企業への影響

LangGraphやCrewAI等の独立ツールと直接競合

フルホスト型でデータ居住地のコンプライアンス懸念

ベンダーロックインのリスクが拡大

導入判断の分岐点

実験段階の企業は移行が容易

本番運用中の企業は並行評価が必要

詳細を見る

Anthropicは、Claude Managed Agentsの発表からわずか数週間で、エージェント基盤を大幅に拡張する3つの新機能を追加しました。Dreaming（記憶の自律的学習）、Outcomes（成果評価の内蔵）、Multi-Agent Orchestration（複数エージェントの協調実行）の3機能で、従来は個別ツールで構築していたインフラ層を単一ランタイムに集約します。

Dreamingは、エージェントが複数セッションの経験を振り返り、記憶を取捨選択して未知のパターンを発見する仕組みです。従来のRAGアーキテクチャではベクトルDBに埋め込みを保存し関連コンテキストを取得していましたが、Dreamingではエージェント自身がセッション間で記憶を能動的に書き換え、過去の失敗から学習します。Outcomesは、エージェントの成功基準をルーブリックとして定義し、外部の品質チェックではなくオーケストレーション層内で評価を完結させます。

Multi-Agent Orchestrationは、リードエージェントがタスクを分解し他のエージェントに委任する機能で、LangGraph、CrewAI、Microsoft等のオーケストレーションフレームワークと正面から競合します。Anthropicは、モデル層にオーケストレーションを統合することでチームの制御性が向上すると主張しています。

一方で、企業側にはいくつかの懸念があります。Claude Managed Agentsはフルホスト型ランタイムのため、記憶やオーケストレーションが自社管理外のインフラで実行されます。データ居住地の証明が求められる組織にとっては、コンプライアンス上の障壁となり得ます。また、既に大規模なAI変革を進行中の企業は、既存のワークフローを容易に置き換えられない制約があります。

Anthropicはこの動きが業界全体の方向性を示すと明言しています。他のモデルプロバイダーも同様に、ツールとオーケストレーション基盤をモデル層に統合する製品戦略に移行すると予測されます。モデル自体は交換可能になっても、ツールとオーケストレーション基盤は交換が難しいため、プラットフォーム選択が長期的なロックインに直結する構造です。企業は自社のエージェント成熟度に応じて、統合プラットフォームへの移行か柔軟なモジュラー構成の維持かを早期に判断する必要があります。

出典：VentureBeat

Gemini APIファイル検索、画像とメタデータに対応

2026年05月05日 Google Gemini 検索クリエイティブハルシネーション画像 RAG

マルチモーダルRAGの実現

画像とテキストの同時検索が可能に

Gemini Embedding 2モデルで画像を直接理解

自然言語での視覚的スタイル検索に対応

前処理不要でマルチモーダルデータを統合

精度と信頼性の強化

カスタムメタデータでフィルタリング精度向上

キーバリュー型ラベルでデータを構造化

ページ単位の引用で出典を明示

大規模PDFでもファクトチェックが容易に

詳細を見る

Googleは2026年5月5日、Gemini APIのFile Search機能を大幅に拡張し、マルチモーダルデータを扱えるRAGシステムの構築を可能にしたと発表しました。従来はテキストのみだった検索対象が画像にも広がり、カスタムメタデータやページ単位の引用機能も新たに追加されています。

Gemini Embedding 2モデルを活用した新しいFile Searchでは、画像とテキストを同時に処理できます。たとえばクリエイティブエージェンシーが、キーワードやファイル名ではなく自然言語で「特定の感情やビジュアルスタイル」を記述して画像アーカイブを検索するといった用途が想定されています。

カスタムメタデータ機能により、非構造化データにキーバリュー形式のラベルを付与できるようになりました。department: Legalやstatus: Finalのようなフィルタをクエリ時に適用することで、無関係なドキュメントからのノイズを削減し、検索速度と精度の両方を改善します。

ページ引用機能は、大規模PDFから抽出された回答の出典をページ番号レベルで特定します。ユーザーが回答の根拠を即座に確認でき、ファクトチェックが必要な業務での信頼性を大きく高めます。

すでに複数の企業が早期導入を進めています。AI共同研究プラットフォームのK-Denseは科学画像の混合モーダル検索で高い精度を確認し、GIF検索のKlipyはテキスト内画像の理解精度向上とハルシネーション排除を評価しています。

出典：Google公式

Pinecone、RAG代替の知識基盤Nexus発表

2026年05月04日検索 CRM 推論インフラセキュリティ投資エージェントコンテキストベンチマーク RAG

Nexusの技術構成

推論前にデータをコンパイルする新手法

タスク特化型知識アーティファクトの生成

エージェント向け宣言型言語KnowQLの提供

フィールド単位の引用と決定論的な競合解決

RAGの限界と市場動向

エージェントの計算の85%が再探索に消費

ハイブリッド検索志向が33.3%に急増

検索最適化投資が評価支出を初めて上回る

企業導入への示唆

コスト・ガバナンス・セキュリティの制御が鍵

監査可能な知識パイプラインが本番運用の条件

詳細を見る

ベクトルデータベース大手のPineconeは2026年5月4日、エージェントAI向けの新たな知識エンジン「Nexus」を発表しました。従来のRAG（検索拡張生成）パイプラインがエージェントAIの要件に適合しないという課題に対応するもので、同日からアーリーアクセスを開始しています。VentureBeatの2026年第1四半期調査によると、単体ベクトルデータベースはすべて採用シェアを落とし、ハイブリッド検索志向は33.3%に達しています。

Nexusの中核は「コンテキストコンパイラ」です。従来のRAGでは推論時に毎回データの解釈・構造化を行いますが、Nexusはエージェントがクエリを発行する前のコンパイル段階で一度だけ推論を実行し、再利用可能な知識アーティファクトとして保存します。同じデータ基盤から営業エージェントにはCRM文脈を、財務エージェントには契約・請求文脈を、それぞれタスクに最適化した形で提供します。

さらにPineconeはエージェント専用の宣言型クエリ言語「KnowQL」を同時リリースしました。意図、フィルタ、出典、出力形式、信頼度、レイテンシ予算の6つのプリミティブにより、エージェントが構造化された応答と根拠を単一インターフェースで指定できます。PineconeのCEO Ash Ashutosh氏は、KnowQLがリレーショナルデータベースにおけるSQLと同様の構造的ギャップを埋めるものだと説明しています。

Pineconeの社内ベンチマークでは、ある金融分析タスクで従来280万トークンを消費していた処理がNexusではわずか4,000トークンで完了し、98%の削減を達成しました。ただし顧客の本番環境での検証はまだ行われていません。同社はエージェントの計算処理の85%がセッションごとのデータ再探索に費やされていると推計しており、これがコスト膨張と非決定論的な結果の根本原因だと指摘しています。

アナリストの評価は慎重ながらも前向きです。HyperFRAME ResearchのStephanie Walter氏は「知識コンパイルをインフラ層として製品化した点が真の革新」と評価しつつ、RAGの完全な再発明ではなく進化だと位置づけています。GartnerのArun Chandrasekaran氏は「単純な検索から高度な推論への重要な飛躍」と述べました。一方で企業の導入判断においては、性能指標よりもコスト管理・ガバナンス・セキュリティの制御が決定要因になるとの見方が示されています。

出典：VentureBeat

LlamaIndex CEOが語る「足場崩壊」後の戦略

2026年05月01日 OpenAI Claude Claude Code Codex 検索ワークフロー OCR Llama エンジニア創業者推論リスクコーディングエージェントコンテキスト MCP LlamaIndex RAG

足場レイヤーの崩壊

RAGフレームワークの必要性低下

LLMが非構造データを直接処理

MCPで統合が簡素化

コード生成の95%がAI製

コンテキストが新たな堀

ファイル形式の解析精度が競争力に

OCR文書処理が差別化の鍵

モジュール性と柔軟性の維持が必須

詳細を見る

LlamaIndexの共同創業者兼CEOであるJerry Liu氏は、LLMアプリケーション開発に必要だったインデックス層やクエリエンジン、検索パイプラインなどの「足場レイヤー」が崩壊しつつあると語りました。モデルの進化により、開発者がこれらの決定論的ワークフローを軽量に構築するためのフレームワークの必要性は薄れています。

その背景には、LLMの推論能力の急速な向上があります。最新モデルは大量の非構造化データを人間以上の精度で処理でき、自己修正やマルチステップの計画立案も可能です。MCP（Modern Context Protocol）やClaude Agent Skillsにより、ツールの発見・利用が個別統合なしで実現されるようになりました。エージェントのパターンは「マネージドエージェント」構成に収斂しています。

Liu氏はさらに、コーディングエージェントの発達により開発者の作業自体が変質していると指摘します。LlamaIndexのコードの約95%はAIが生成しており、「エンジニアは実際のコードを書いていない。自然言語で入力している」と述べました。プログラマーと非プログラマーの境界が消えつつあるといいます。

では足場が崩壊した後に何が残るのか。Liu氏の答えは「コンテキスト」です。エージェントがファイル形式を解読し正確な情報を抽出する能力が差別化要因になるとし、LlamaIndexはOCRによるエージェント型文書処理でこの領域に注力しています。「OpenAI CodexでもClaude Codeでもどちらでもよい。すべてが必要とするのはコンテキストだ」と同氏は強調しました。

一方でLiu氏は、特定のフロンティアモデルへの依存リスクにも警鐘を鳴らしています。スタックのモジュール性を保ち、技術的負債を排除し、モデルリリースごとに最適な選択肢へ柔軟に移行できる体制を整えることが企業に求められると述べました。スタックの一部は必然的に廃棄される前提で設計すべきだとしています。

出典：VentureBeat

企業RAGの検索再構築が本格化、ハイブリッド検索の導入意向が3倍に

2026年04月29日検索投資エージェントコンテキスト Databricks RAG

検索アーキテクチャの転換

ハイブリッド検索意向が10%から33%に急増

単独ベクトルDBの採用シェア低下

カスタムスタックが35.6%に拡大

検索最適化が投資優先度の首位に

評価基準の高度化

回答正確性・検索精度・回答関連性が同率に収束

回答関連性が唯一上昇した評価指標

ロングコンテキスト派は15.5%から6.7%に後退

本番RAG未導入企業も22%に増加

詳細を見る

VentureBeatの調査「VB Pulse」によると、2026年第1四半期に企業のハイブリッド検索導入意向が10.3%から33.3%へと3倍に急増しました。従業員100人以上の企業を対象に毎月45〜58件の有効回答を得た調査で、企業がRAG（検索拡張生成）の検索レイヤーを追加するフェーズから、既存アーキテクチャを再構築するフェーズへ移行していることが明らかになっています。

ハイブリッド検索とは、ベクトル類似検索にキーワード検索やリランキング層を組み合わせる手法です。単一手法のRAGパイプラインでは対応しきれなかった検索精度とアクセス制御の課題を解決するもので、エージェント型AIワークロードの本番運用に不可欠とされています。一方、Weaviate・Milvus・Pinecone・Qdrantといった単独ベクトルDBは四半期を通じて採用シェアを落としました。

投資優先度にも変化が見られます。評価・関連性テストは1月の32.8%から3月の15.6%へ低下し、代わりに検索最適化が19.0%から28.9%へ上昇して初めて首位に立ちました。HyperFRAME ResearchのSteven Dickens氏は「データチームはフラグメンテーション疲れに疲弊している」と指摘し、ベクトルストア・グラフDB・リレーショナルシステムを別々に管理する運用負荷の問題を挙げています。

検索システムの評価基準も高度化しています。1月には回答正確性が67.2%で突出していましたが、3月には回答正確性・検索精度・回答関連性がいずれも53.3%で収束しました。正しい答えだけでなく、適切な文脈から検索されたかを問う段階へ企業が進んでいることを示しています。

「RAGは終わった」という議論についても、調査データは明確な回答を示しています。ロングコンテキストウィンドウが検索を不要にするという見方は、1月の15.5%から2月に3.5%まで急落しました。Databricksの主任AIサイエンティストJonathan Frankle氏は、数百万件のエントリを持つベクトルDBがエージェント型メモリスタックの基盤にあり、コンテキストウィンドウだけでは置き換えられないと説明しています。RAGそのものではなく、最初に構築されたアーキテクチャが否定されているのです。

出典：VentureBeat

RAG精度チューニングで検索精度が最大40%低下、Redis研究が警告

2026年04月27日検索推論エージェントコンテキストトランスフォーマー RAG

埋め込みモデルの構造的限界

構文感度の訓練が汎用検索を破壊

否定・語順反転で意味が逆転しても近傍に配置

大規模モデルへの拡張では根本解決不可

回帰は本番環境まで検出されにくい

既存手法の限界と2段階修正

ハイブリッド検索やMaxSimも構造的誤りに無力

クロスエンコーダは精度高いが本番規模で破綻

2段階方式: 検索後にTransformer検証器で精度担保

レイテンシ増加は不可避、用途別の判断が必要

詳細を見る

Redisの研究チームが、RAGパイプラインにおける埋め込みモデルの精度チューニングが、汎用的な検索精度を最大40%低下させる可能性があることを明らかにしました。論文「Training for Compositional Sensitivity Reduces Dense Retrieval Generalization」は、構文的に類似しているが意味が異なる文を識別する訓練が、広範なトピックにわたる検索性能を著しく損なうことを実証しています。この問題は特にエージェント型AIパイプラインにおいて深刻で、検索エラーが下流の推論チェーン全体に連鎖的な誤りを引き起こします。

問題の根本は、埋め込みモデルが文全体を高次元空間の単一ベクトルに圧縮する仕組みにあります。「犬が人を噛んだ」と「人が犬を噛んだ」のように、単語が同じでも構造が異なる文は同じ近傍に配置されてしまいます。構文感度を高める訓練を行うと、モデルは汎用的な検索に使っていた表現空間を消費し、2つの目的が同一ベクトル上で競合します。

研究チームは、ハイブリッド検索、MaxSimリランキング、クロスエンコーダ、コンテキストメモリといった既存の代替手法をすべて検証しましたが、いずれも構造的な誤りの検出には不十分でした。キーワード検索は同じ単語を含む文の構造差を判別できず、MaxSimは関連性と同一性という異なる目的を混同します。クロスエンコーダは精度は高いものの、本番規模のクエリ量には耐えられません。

研究が検証した解決策は2段階アーキテクチャです。第1段階では従来通りの密ベクトル検索で候補を幅広く取得し、第2段階で小型の学習済みTransformerモデルがトークンレベルで構造的不一致を検出します。この検証器は、否定反転や役割逆転といった単一ベクトル方式が見逃す失敗パターンを、他のどの手法よりも確実に捕捉しました。

Redis AI研究リーダーのSrijith Rajamohan氏は、RAG自体は依然として有効なアーキテクチャだが、精度が求められるワークロードでは単一段階のパイプラインを本番対応と見なすべきではないと強調しています。2段階方式はレイテンシの増加を伴うため、法務・会計など精度重視の用途では完全検証を、汎用検索では軽量な検証を選択するというトレードオフの判断が求められます。この手法はRedisのLangCache製品への組み込みが計画されていますが、現時点では未提供です。

出典：VentureBeat

MIT、数学五輪3万問超のデータセット公開

2026年04月24日 DeepSeek 検索数学 GPT-5 専門家学生推論米国中国ブラジル MIT ベンチマークオープンソースモデル RAG

MathNetの概要

47カ国143大会から3万問超を収録

17言語対応で既存の5倍規模

公式問題集から専門家の解答を収集

学生とAI研究者の双方に無償公開

AIの弱点を浮き彫りに

GPT-5でも正答率は約69%

図形問題で性能が大幅に低下

モンゴル語問題でOSSモデルが全滅

類似問題の検索精度はわずか5%

詳細を見る

MITのCSAIL、KAUST、HUMAINの研究チームは2026年4月24日、数学オリンピックレベルの証明問題を集めた世界最大のデータセット「MathNet」を公開しました。47カ国・143大会から収集した3万問超の問題と解答を含み、17言語に対応しています。同種のデータセットとしては既存最大の5倍の規模です。成果はブラジルで開催されるICLR 2026で発表されます。

従来のデータセットは米国と中国の大会に偏っていましたが、MathNetは6大陸にまたがる公式大会の問題集を網羅しています。1,595件のPDF資料・計2万5000ページ以上を追跡し、数十年前のスキャン文書まで含めて収録しました。問題と解答はすべて専門家が執筆・査読したもので、複数の解法が示されるケースも多く、AIの数学的推論の学習に質の高い信号を提供します。

AIモデルのベンチマークとしても重要な知見をもたらしています。最高性能のGPT-5でも6,400問のベンチマークで正答率は約69.3%にとどまり、約3問に1問を解けませんでした。図形を含む問題では全モデルで精度が大幅に低下し、視覚的推論が一貫した弱点であることが判明しました。また複数のオープンソースモデルはモンゴル語の問題で正答率0%を記録しています。

さらに類似問題の検索ベンチマークでは、最先端の埋め込みモデル8種を評価した結果、初回で正しい類似問題を特定できた割合はわずか約5%でした。検索拡張生成の実験では、関連性の高い問題を与えるとDeepSeek-V3.2-Specialeの正答率が最大12ポイント向上する一方、無関係な問題の提示は約22%のケースで性能を低下させました。

筆頭著者のShaden Alshammari氏はIMO出場経験を持ち、「多くの国で独力で大会準備をしている学生がいる。質の高い問題と解答を一カ所に集めたかった」と語っています。データセットはIMO財団とも共有される予定で、mathnet.csail.mit.eduから誰でもアクセスできます。

出典：MIT News

Gemini Embedding 2が正式版に昇格

2026年04月22日 Google Gemini 検索ワークフローエンジニア推論インフラ画像動画音声 RAG

マルチモーダル埋め込み

テキスト・画像・動画・音声に対応

複雑なパイプラインを統合可能

EC検索や動画分析で実証済み

提供と今後の展開

Gemini APIとVertex AIで利用可能

本番環境向けの安定性を確保

Google製品の基盤技術を外部開放

詳細を見る

Googleは2026年4月22日、マルチモーダル埋め込みモデルGemini Embedding 2の一般提供（GA）を開始しました。プレビュー期間中にEC向け検索エンジンや動画分析ツールなど多数のプロトタイプが構築されており、今回の正式版ではこれらを本番環境へ移行するための安定性と最適化が施されています。

Gemini Embedding 2の最大の特徴は、テキスト・画像・動画・音声をネイティブに扱えるマルチモーダル対応です。従来はモダリティごとに個別のパイプラインを構築する必要がありましたが、単一モデルで横断的な検索・推論が可能になります。これにより、開発者は複雑なインフラ構成を大幅に簡素化できます。

提供チャネルはGemini APIとVertex AIの2系統です。個人開発者から大規模エンタープライズまで、既存のGoogle Cloudワークフローに統合しやすい設計となっています。

同モデルはGoogleの各種プロダクトを支える基盤技術であり、社内で蓄積された研究成果を外部の開発者コミュニティにも開放する位置づけです。RAGやセマンティック検索を構築する際の選択肢として、マルチモーダル対応の埋め込みモデルが正式版で利用できる意義は大きいといえます。

出典：Google公式

Databricks、マルチステップAIエージェントが単発RAGを21%上回ると実証

2026年04月14日検索スタンフォードエージェントベンチマーク基盤モデル Databricks RAG

研究の核心的発見

単発RAGは構造化・非構造化データの横断に失敗

より強力なモデルでもエージェントに21%劣後

性能差はモデル品質でなくアーキテクチャの問題

Supervisorエージェントの仕組み

SQLとベクトル検索の並列実行

失敗検知と自動クエリ再構成

宣言的設定でカスタムコード不要

企業への示唆

5〜10データソースで段階的拡張を推奨

データソース追加は設定作業のみで完結

詳細を見る

DatabricksのAI研究チームは、マルチステップ型のAIエージェントが従来の単発RAG（検索拡張生成）を大幅に上回るという研究成果を発表しました。スタンフォード大学のSTaRKベンチマークで9つの企業向け知識タスクを検証した結果、マルチステップエージェントは単発RAGに対して20%以上の精度向上を示しています。売上データと顧客レビューのように、構造化データと非構造化データをまたぐ質問に対し、単発RAGが根本的に対応できないことがその背景にあります。

研究の最も重要な発見は、この性能差がモデルの品質ではなくアーキテクチャに起因するという点です。Databricksが最新の高性能基盤モデルで既存のSTaRKベースラインを再実行したところ、それでもマルチステップエージェントに対して学術領域で21%、生物医学領域で38%劣る結果となりました。つまり、より賢いモデルを使うだけでは、構造化・非構造化データの横断的な質問を解決できないことが示されています。

Databricksが構築したSupervisorエージェントは、3つの中核機能で従来のRAGの限界を克服します。第一に、SQLクエリとベクトル検索を並列に実行し、結果を統合してから次のアクションを決定します。第二に、初回の検索が失敗した場合に自動的にクエリを再構成して別のアプローチを試みる自己修正機能を備えています。第三に、新しいデータソースの接続に必要なのは自然言語による説明文の記述だけで、カスタムコードは不要です。

研究責任者のMichael Bendersky氏は「RAGは機能するが、スケールしない」と指摘しています。従来のカスタムRAGパイプラインでは、SQLテーブルのフラット化やJSONの正規化など、新しいデータソースごとに変換作業が必要でした。一方、宣言的なエージェントフレームワークであれば、各データソースをネイティブな形式のまま問い合わせることが可能です。「エージェントをデータのもとへ持っていくだけでいい」とBendersky氏は述べています。

企業への実務的な示唆として、構造化データと非構造化データをまたぐ質問が必要な場合、カスタムRAGパイプラインの構築よりもエージェント型アーキテクチャの採用が有利であることを研究は示しています。ただし、データソースは5〜10個で段階的に拡張し、各段階で結果を検証することが推奨されます。また、エージェントはフォーマットの不一致を処理できますが、元データの事実誤認までは修正できないため、データ品質の確保が前提条件となります。

出典：VentureBeat

Hugging Face、画像音声動画の埋め込みに対応

2026年04月09日 NVIDIA Qwen 検索 Llama エンジニア推論 GPU 画像動画音声トランスフォーマー Hugging Face RAG

v5.4の新機能

マルチモーダル埋め込み追加

画像・音声・動画を共有空間化

リランカーも多モーダル対応

同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合

2BはVRAM8GBから動作

processor_kwargsへ名称変更

詳細を見る

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像・音声・動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索やRAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー（CrossEncoder）も多モーダル化され、テキスト・画像・動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

出典：Hugging Face

LangChainとMongoDBがAIエージェント基盤で戦略提携

2026年03月31日 LangChain AWS 検索インフラクラウドセキュリティコンプライアンスデプロイデバッグ医療提携エージェント LangSmith RAG

統合プラットフォームの全容

Atlas上でベクトル検索・状態管理を一元化

自然言語からMongoDB問い合わせを自動生成

LangSmithでエージェント全工程を可視化

導入企業の活用事例

Kai Securityが1日で本番運用を実現

Fortune 500企業が金融・医療分野で採用

コンプライアンスや顧客対応を自動化

オープンな設計思想

LLMプロバイダー・クラウドを自由に選択可能

LangGraph等の主要コンポーネントはOSS公開

詳細を見る

LangChainとMongoDBは2026年3月、AIエージェントの開発から本番運用までを単一プラットフォームで完結させる戦略的パートナーシップを発表しました。6万5000社以上が利用するMongoDB Atlas上にエージェント基盤を構築する統合ソリューションです。

統合の中核は、Atlas Vector SearchによるRAG（検索拡張生成）の実装です。セマンティック検索、ハイブリッド検索、GraphRAGを単一のMongoDBデプロイメントから実行でき、ベクトルデータと業務データを同じ基盤で管理するため、同期処理や二重管理の負担がなくなります。

MongoDB Checkpointerはエージェントの状態をMongoDBに永続化する仕組みで、会話履歴の保持、障害からの自動復旧、任意時点への巻き戻しデバッグが可能です。LangSmithのデプロイメント環境で設定するだけで、アプリケーションデータと同じデータベースにエージェントの状態が保存されます。

Text-to-MQL機能では、自然言語をMongoDBクエリ言語に自動変換し、エージェントが業務データに直接アクセスできます。「過去30日間の配送遅延注文を表示」といった質問を、カスタムAPIなしで処理できるため、開発工数を大幅に削減できます。

サイバーセキュリティ企業のKai Securityは、この統合により1日で本番デプロイを達成しました。従来は別途データベース層の構築に1カ月を要していた作業が、既存のMongoDB基盤上で一時停止・再開、障害復旧、監査証跡を即座に実装できたとしています。

LangChain CEOのHarrison Chase氏は「MongoDBの顧客はプロトタイプから本番エージェントまで、既存インフラを離れずに完結できる」と述べています。全統合機能は即日利用可能で、AWS・Azure・GCPのマルチクラウドに対応し、主要コンポーネントはオープンソースとして公開されています。

出典：blog.langchain.com

Cohere、オープンウェイト音声認識モデルを公開

2026年03月30日 OpenAI Qwen ワークフローエンジニアオープンウェイトリスク GPU インフラ音声中国日本ドイツ韓国エージェント Hugging Face ElevenLabs Cohere RAG

モデルの性能

WER 5.42%で業界最高精度

Whisper Large v3の7.44%を大幅に上回る

14言語対応（日本語含む）

20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能

データ残留リスクなしの音声処理

RAGやエージェント構築に即戦力

商用利用を前提とした設計

詳細を見る

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率（WER）5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3（WER 7.44%）、ElevenLabs Scribe v2（5.83%）、Qwen3-ASR（5.76%）をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本語、中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインやエージェントワークフローに音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

出典：VentureBeat

清華大学発IndexCache、長文LLM推論を最大1.82倍高速化

2026年03月27日 GitHub DeepSeek 推論パッチエージェントプロンプトコンテキストベンチマークトランスフォーマー RAG

スパース注意の課題

自己注意機構の二乗計算量が壁

DSAのインデクサ自体に冗長計算が残存

長文プロンプトのプリフィル遅延が深刻化

IndexCacheの仕組み

隣接層間で選択トークンが70〜100%一致

少数のF層のみインデクサを実行し結果をキャッシュ

75%のインデクサ削除で精度維持

導入効果と展望

20万トークンでプリフィル1.82倍高速化

RAG等の長文処理でコスト約20%削減

詳細を見る

清華大学とZ.aiの研究チームは、スパース注意機構の冗長計算を最大75%削減する新技術IndexCacheを発表しました。20万トークンの長文コンテキストにおいて、最初のトークン生成までの時間を最大1.82倍、生成スループットを1.48倍高速化する成果を示しています。

大規模言語モデルの自己注意機構は、文脈長に対して二乗の計算量が必要となり、長文処理のボトルネックとなっていました。DeepSeek Sparse Attention（DSA）はコア注意の計算量を線形に削減しましたが、各層のインデクサモジュール自体が依然として二乗計算を行っており、長文になるほど処理時間が急増する問題が残っていました。

研究チームは、DSAモデルにおいて隣接するトランスフォーマー層間でインデクサが選択するトークンの70〜100%が共通であることを発見しました。この冗長性を活用し、少数の「F層」でのみインデクサを実行して結果をキャッシュし、残りの「S層」ではキャッシュを再利用する手法を開発しました。

GLM-4.7 Flash（300億パラメータ）での実験では、75%のインデクサを削除してもプリフィル遅延が19.5秒から10.7秒に短縮されました。推論品質も維持され、長文ベンチマークでは原版とほぼ同等のスコアを記録しています。7440億パラメータのGLM-5でも10万トークン超で1.3倍以上の高速化が確認されました。

企業導入においては、RAGや文書分析、エージェントパイプラインなどの長文処理で約20%のコスト削減が見込まれます。vLLMやSGLang向けのオープンソースパッチがGitHubで公開されており、既存の推論基盤に最小限の設定変更で統合可能です。研究チームは、将来のモデル設計において推論効率が設計段階から考慮される方向性を示唆しています。

出典：VentureBeat

英研究チームがAIエージェント記憶技術xMemoryを開発、トークン消費半減

2026年03月25日 GitHub 検索カスタマーサポート推論リスクポリシー MIT エージェント RAG

従来RAGの限界

会話記憶に未対応の設計

類似チャンク大量取得で冗長化

時系列依存の文脈を誤削除

xMemoryの階層構造

4層意味階層で会話を整理

不確実性ゲートで取得量を制御

トークン数約9000→4700に削減

導入判断の指針

長期対話型業務に最適

文書検索用途は従来RAGで十分

詳細を見る

キングス・カレッジ・ロンドンとアラン・チューリング研究所の研究チームは、AIエージェントの長期記憶管理技術「xMemory」を開発しました。従来のRAGパイプラインが抱えるマルチセッション対話での冗長性問題を解決し、トークン使用量を大幅に削減します。

従来のRAGは大規模な文書データベース向けに設計されており、会話記憶のような相関性の高いデータストリームには不向きです。類似した埋め込みベクトルを持つチャンクが大量に取得され、重要な文脈情報が埋もれてしまいます。さらに会話特有の時系列依存性により、後処理での枝刈りが必要な情報まで削除するリスクがあります。

xMemoryは会話データを「生メッセージ→エピソード→セマンティクス→テーマ」の4層階層に整理します。検索時はテーマ層から下位層へトップダウンで探索し、「不確実性ゲーティング」により回答精度の向上に寄与する場合のみ詳細データを取得します。これにより冗長な情報の取得を根本的に防ぎます。

実験では、オープンモデル・クローズドモデル双方でxMemoryが既存手法を上回る精度を達成しました。一部タスクではクエリあたりのトークン消費が約9,000から約4,700に半減し、推論コストの大幅な削減を実現しています。ただし階層構造の構築にはバックグラウンドでの追加LLM呼び出しが必要であり、書き込みコストとのトレードオフが存在します。

研究者のLin Gui氏は、カスタマーサポートやパーソナライズドコーチングなど数週間〜数カ月にわたる一貫した対話が求められる業務での活用を推奨しています。一方、ポリシー文書や技術マニュアルの検索には従来のRAGで十分とのことです。コードはMITライセンスでGitHubに公開されており、商用利用も可能です。

出典：VentureBeat

Google、AI推論メモリを6分の1に圧縮するTurboQuantを公開

2026年03月25日 Google DeepSeek Cloudflare 数学 Llama 推論半導体 GPU コンテキストベンチマーク Mistral RAG

TurboQuantの技術

KVキャッシュを6分の1に圧縮

演算性能は8倍に向上

極座標変換のPolarQuantが基盤

1ビットQJLで誤差を補正

企業への影響

推論コスト50%以上削減の可能性

再学習不要で既存モデルに即適用

メモリ半導体株に下落圧力

ローカル実行の民主化が加速

詳細を見る

Google Researchは2026年3月25日、大規模言語モデルの推論時に肥大化するKVキャッシュを極限まで圧縮するアルゴリズム群「TurboQuant」を公開しました。メモリ使用量を平均6分の1に削減し、注意計算の性能を8倍に高めることで、企業の推論コストを50%以上削減できる可能性があります。

TurboQuantは二段階の数学的手法で構成されています。第一段階のPolarQuantはベクトルを極座標に変換し、ランダム回転後の角度分布が予測可能になる性質を利用して、従来必要だった正規化定数のオーバーヘッドを排除します。第二段階では1ビットのQJL変換が残留誤差をゼロバイアスで補正し、圧縮後も統計的に同等の注意スコアを維持します。

10万トークンの「Needle-in-a-Haystack」ベンチマークでは、Llama-3.1-8BやMistral-7Bで非圧縮モデルと同等の完全な再現率を達成しました。コミュニティでも即座に検証が進み、MLXへの移植テストでは2.5ビット量子化でKVキャッシュを約5分の1に削減しつつ精度劣化ゼロが確認されています。

発表後、MicronやWestern Digitalなどメモリ半導体大手の株価に下落傾向が見られました。ソフトウェアだけでメモリ需要を6分の1にできるとの見方が市場に広がった形ですが、効率化が利用拡大を招くジェヴォンズのパラドックスを指摘する声もあります。Cloudflare CEOは「GoogleのDeepSeekモーメント」と評しました。

企業にとっての最大の利点は、再学習なしで既存の微調整済みモデルにそのまま適用できる点です。推論サーバーのGPU台数削減、長文コンテキストのRAG活用拡大、オンプレミスでの大規模モデル運用が現実的になります。ただし現時点では研究段階であり、トレーニング時のメモリ問題は対象外である点には留意が必要です。

出典：VentureBeat | Ars Technica | TechCrunch

AIエージェント本番運用を阻む3つの壁と克服手法

2026年03月24日ワークフローリスクエージェントプロンプト RAG SaaS

本番運用の障壁

データ分散と統合の困難さ

暗黙知依存の業務プロセス

レガシーAPIの不完全な対応

3つの実践手法

データ仮想化で統合遅延を回避

ダッシュボードとKPIで管理層構築

限定スコープで段階的に自律性向上

導入の最適解

高頻度・低リスク業務から着手

サブエージェント分割で複雑タスク対応

詳細を見る

CreatioのBurley Kawasaki氏らが、AIエージェントをデモから本番運用へ移行させるための3つの規律を提唱しました。データ仮想化、エージェント管理ダッシュボード、限定スコープの運用ループがその柱です。

企業がエージェント導入で最初に直面する壁はデータの分散です。SaaS、社内DB、各種アプリに情報が散在し、構造化されていないケースも多く、エージェントが正確に情報を取得できない状況が生まれています。Greyhound ResearchのGogia氏は統合の難しさを指摘しています。

さらに深刻なのは暗黙知への依存です。従業員が経験則で例外処理を行っている業務は、自動化ロジックに変換すると抜け漏れが顕在化します。明文化されていないルールや判断基準が、エージェントのエスカレーション率を押し上げる要因となっています。

Kawasaki氏のチームは段階的チューニング手法を採用しています。設計時のプロンプト最適化、運用中の人間によるレビューと修正、稼働後の継続的モニタリングという3段階で精度を高めます。単純な業務では80〜90%のタスクを自律処理できる水準に達しているといいます。

導入に最適なのは高頻度かつ構造化された業務です。書類の取り込みや検証、定型的な顧客接点などが該当します。金融機関では部門横断的なデータ分析により、数百万ドル規模の増収効果を得た事例もあると報告されています。

規制産業など複雑な業務では、単一プロンプトではなくオーケストレーション型の実行が必要です。サブエージェントに分割し、RAGで情報をグラウンディングしながら、数時間から数日かけてタスクを完遂する設計が求められます。モデルの再訓練は不要で、プロンプトやワークフロー設計の改善で性能向上が可能です。

出典：VentureBeat

Mozilla開発者がAIエージェント向け知識共有基盤「cq」を発表

2026年03月24日 Stripe Claude Flow エンジニアエネルギーセキュリティコーディングエージェント RAG

cqの基本構想

エージェント間の知識共有基盤

古いAPI呼び出しなど誤情報を防止

既解決の問題を再利用しトークン節約

仕組みと課題

未知の作業前にcommonsへ問い合わせ

新知見を提案し他エージェントが検証

利用実績で信頼度を蓄積

セキュリティとデータ汚染が課題

詳細を見る

Mozillaの開発者ピーター・ウィルソン氏は、AIコーディングエージェント向けの知識共有プラットフォーム「cq」を発表しました。同氏はこれを「エージェント版Stack Overflow」と位置づけています。

現在のコーディングエージェントは、学習データの時期的な制約により、廃止済みのAPIを呼び出すなど古い情報に基づいた判断をしがちです。RAGなどの手法で最新情報を取得する場合もありますが、必要な場面で常に機能するわけではありません。

さらに、複数のエージェントが同じ問題に個別に取り組み、すでに解決済みの課題に対して大量のトークンとエネルギーを消費している現状があります。cqはこの非効率を解消し、一度得た知見を全エージェントで共有することを目指します。

cqの仕組みでは、エージェントが未知の作業に着手する前にcommonsと呼ばれる共有知識基盤に問い合わせます。たとえばStripe APIの特殊な挙動を別のエージェントが発見済みなら、その知見を即座に活用できます。新たな発見は提案として共有され、他のエージェントが有効性を検証します。

ただし、実用化に向けてはセキュリティ、データ汚染、正確性の担保が大きな課題です。現状ではclaude.mdなどの手動設定ファイルが主流ですが、cqはこれを自動化・体系化する試みとして注目されています。

出典：Ars Technica

VercelがベクトルDB不要のナレッジエージェント基盤を公開

2026年03月20日マイクロソフト Vercel GitHub Slack 検索認証デプロイデバッグエージェント Discord RAG

ファイル検索の仕組み

ベクトルDB・埋め込み不要

grep/find/catで検索実行

Sandbox内でbash操作

デバッグが数分で完結

コスト75%削減の実績

マルチ展開と拡張性

Chat SDKで全平台対応

AI SDKとの深い統合

複雑度による自動ルーティング

管理機能

利用統計・エラーログ内蔵

AI管理エージェントで自己診断

詳細を見る

Vercelは、ベクトルデータベースや埋め込みモデルを使わずにナレッジエージェントを構築できるオープンソーステンプレート「Knowledge Agent Template」を公開しました。Vercel Sandbox、AI SDK、Chat SDKを組み合わせた構成で、ワンクリックでデプロイできます。

従来のRAGパイプラインでは、チャンキングや埋め込みモデルの選定、類似度スコアの調整に多大な工数がかかり、誤回答時のデバッグも困難でした。ベクトル検索では類似度0.82と0.79の差異の原因特定が難しく、障害対応が長期化する課題がありました。

新アーキテクチャでは、エージェントがgrep・find・catといたファイルシステム操作で情報を検索します。LLMはコード学習を通じてディレクトリ操作に習熟しているため、この手法が有効です。社内の営業通話要約エージェントでは、コストが約1ドルから約0.25ドルに削減され、出力品質も向上しました。

Chat SDKにより、同一のナレッジベースをSlack・Discord・GitHub・Microsoft Teamsなど複数プラットフォームに同時展開できます。各アダプターが認証やメッセージ形式の差異を吸収し、エージェント本体のコードは変更不要です。さらにAI SDKとの統合により、質問の複雑度に応じてモデルを自動選択するスマートルーティング機能も備えています。

テンプレートには管理画面が内蔵されており、利用統計、エラーログ、ユーザー管理、ソース設定を一元管理できます。さらにAI管理エージェントが搭載され、「過去24時間のエラー」や「よくある質問」を自然言語で問い合わせることが可能です。外部の監視ツールを別途導入する必要がありません。

出典：vercel.com

IBM Research、構造化AIワークフロー基盤Mellea 0.4.0を公開

2026年03月20日 GitHub 検索ワークフローポリシーコンプライアンスプロンプト Hugging Face RAG LoRA

Mellea 0.4.0の新機能

Granite Librariesとネイティブ統合

制約付きデコードでスキーマ正確性を保証

指示・検証・修復パターンの導入

観測フックでワークフロー監視が可能に

Granite Librariesの構成

granitelib-core：要件検証用アダプタ

granitelib-rag：RAGパイプライン全工程対応

granitelib-guardian：安全性・事実性・コンプライアンス特化

granite-4.0-micro向けLoRAアダプタ群

詳細を見る

IBM Researchは2026年3月20日、オープンソースのPythonライブラリMellea 0.4.0と3つのGranite Librariesを同時公開しました。これにより、IBM Graniteモデル上で構造化・検証可能・安全性を備えたAIワークフローの構築が容易になります。

Melleeは確率的なプロンプト動作を、構造化された保守可能なAIワークフローに置き換えるライブラリです。制約付きデコードや構造化修復ループ、パイプラインの組み合わせにより、LLMベースのプログラムの予測可能性と保守性を高める設計思想を持っています。

バージョン0.4.0では、Granite Librariesとのネイティブ統合が実現しました。制約付きデコードに基づく標準化APIを通じ、出力のスキーマ正確性を保証します。さらにリジェクションサンプリング戦略による指示・検証・修復パターンや、イベント駆動型コールバックによる観測フックも導入されました。

同時公開されたGranite Librariesは、granite-4.0-microモデル向けの特化型LoRAアダプタ群です。granitelib-coreは要件検証、granitelib-ragは検索前・検索後・生成後のRAGタスク、granitelib-guardianは安全性・事実性・ポリシー準拠の各領域をカバーします。

汎用プロンプティングに頼らず、タスク特化型アダプタを用いることで、少ないパラメータコストで各タスクの精度を向上させつつ、ベースモデルの能力を損なわない点が特長です。コードと論文はHugging FaceおよびGitHubで公開されており、すぐに導入を開始できます。

出典：Hugging Face

NVIDIA、1日で専用埋め込みモデルを構築するレシピ公開

2026年03月20日 OpenAI NVIDIA 検索推論ファインチューニング GPU RAG

手法と成果

GPU1台・1日未満で完結

ラベル不要の合成データ生成

ハードネガティブマイニング採用

Recall・NDCG@10が10%以上改善

企業実績と展開

AtlassianがJiraで検証済み

Recall@60が0.751→0.951に向上

NIMでOpenAI互換API展開

6コマンドで全工程実行可能

詳細を見る

NVIDIAは2026年3月20日、汎用埋め込みモデルを特定ドメインに最適化するファインチューニングレシピを公開しました。GPU1台と1日未満の学習時間で、手動ラベリング不要で高品質なドメイン特化型埋め込みモデルを構築できます。

本レシピの核心は、LLMを使った合成データ生成パイプラインです。ドメイン文書をLLMに読み込ませ、複雑さの異なる質問・回答ペアを自動生成します。マルチホップクエリにも対応し、複数文書にまたがる推論を学習データに反映できます。

学習効果を高めるため、ハードネガティブマイニングを導入しています。正解に近いが誤りである文書を特定し、モデルが微妙な違いを学習できるようにします。正解スコアの95%以上の候補は偽陰性の可能性があるため自動除外されます。

Atlassianは本レシピをJiraデータセットに適用し、Recall@60が0.751から0.951へと26.7%向上する成果を確認しました。数百万のRovoユーザーの検索精度が直接的に改善されています。

完成したモデルはONNXやTensorRTに変換後、NVIDIA NIMコンテナでOpenAI互換APIとして本番展開できます。既存のRAGパイプラインにコード変更なしで組み込める点が実用上の大きな利点です。

出典：Hugging Face

NVIDIA、投機的デコード統一ベンチマーク「SPEED-Bench」公開

2026年03月19日 NVIDIA 数学推論コーディングプロンプトベンチマーク RAG

ベンチマークの構成

11カテゴリ880プロンプトで意味的多様性を最大化

入力長1k〜32kトークンのスループット評価

TensorRT-LLM・vLLM・SGLang対応の統一計測基盤

主要な知見

コーディング・数学は高受理率、ロールプレイは低受理率

語彙プルーニングで多言語・RAGの精度が大幅低下

ランダムトークンはスループットを約23%過大評価

ネイティブMTPがEAGLE3より高い受理長を達成

バッチサイズ増加でメモリ律速に移行しSD効果が変化

詳細を見る

NVIDIAの研究チームは2026年3月、投機的デコード（SD）を統一的に評価するベンチマーク「SPEED-Bench」を公開しました。SDはドラフトモデルで複数トークンを先読みし、ターゲットモデルが並列検証することで推論を高速化する技術ですが、従来の評価手法は断片的で本番環境を反映していませんでした。

SPEED-Benchは「Qualitative分割」と「Throughput分割」の2つのデータセットで構成されています。Qualitative分割は18のデータソースから11カテゴリ・計880プロンプトを収録し、テキスト埋め込みによる選択アルゴリズムでカテゴリ内の意味的多様性を最大化しています。

Throughput分割は入力長1k〜32kトークンの固定バケットを用意し、各バケットに低・混合・高エントロピーの3難易度で計1,536プロンプトを収録しています。バッチサイズ最大512までの高並行環境で、本番に近いスループット評価が可能です。

評価の結果、SDの受理長はドメインに強く依存することが確認されました。コーディングや数学などの低エントロピー領域では高い受理長を示す一方、ロールプレイや創作文は推測が困難です。また、ネイティブMTPヘッドはEAGLE3より大幅に高い受理長を達成し、ベースモデルとの共同学習の優位性が示されました。

さらに、ランダムトークンを用いた従来のベンチマーク手法は、SD有効時にスループットを約23%過大評価する問題が判明しました。MoEモデルでもエキスパートルーティングが不正確になるため、現実的なデータでの評価が不可欠です。データセットと計測フレームワークはオープンソースで公開されています。

出典：Hugging Face

DataRobotとNebiusがAIエージェント基盤で提携

2026年03月19日 NVIDIA LangChain AI導入 Llama 推論プロンプトインジェクション GPU クラウド認証コンプライアンスデプロイ提携エージェントプロンプト MCP LlamaIndex RAG

共同基盤の特徴

AI Factoryで数日で本番化

Nebius GPU基盤で低遅延推論実現

トークン従量課金で実験コスト削減

50以上のNIMモデルをワンクリック展開

ガバナンスと運用

OpenTelemetry準拠の監視体制

OAuth 2.0とRBACによる統合認証

Workload APIで任意コンテナ展開

コンプライアンス自動レポート生成

詳細を見る

DataRobotとNebiusは、企業向けAIエージェントの開発・運用・ガバナンスを加速する共同ソリューション「AI Factory for Enterprises」を発表しました。従来数カ月かかっていたエージェントの本番化を数日に短縮することを目指します。

NebiusはAI専用設計のGPU クラウド基盤を提供し、H100からGB300 NVL72まで最新のNVIDIA GPUを搭載しています。汎用クラウドで課題となる「ノイジーネイバー問題」を排除し、ベアメタル性能と予測可能なスループットを実現します。

DataRobotのAgent Workforce Platformは、LangChain・CrewAI・LlamaIndexなど主要フレームワークに対応し、MCPやマネージドRAGも標準搭載しています。独自のノードアーキテクチャツール（NAT）により、YAMLベースでエージェントを構造的に定義・テストできます。

ガバナンス面では、OpenTelemetry準拠のトレーシングによりエージェント実行パスの可視化を実現します。PII検出・プロンプトインジェクション防御・毒性検知などのガードレールを標準装備し、監視データから規制対応文書を自動生成する機能も備えています。

両社は2026年3月16〜19日にサンノゼで開催されるNVIDIA GTC 2026で本ソリューションを展示予定です。NebiusのToken Factoryによる従量課金モデルで実験段階のコストを抑え、本番移行時にはNIM専用デプロイへシームレスに切り替えられる点が、企業の段階的AI導入を後押しします。

出典：datarobot.com

Microsoft Fabric IQをMCP開放、全社エージェント共通基盤に

2026年03月18日マイクロソフト検索エンジニアインフラエージェントコンテキスト MCP RAG

Fabric IQの主要拡張

MCP経由で他社エージェントに開放

業務オントロジーを共通コンテキスト化

企業計画機能を統合し目標も照会可能に

Database Hubで5種のDBを一元管理

RAGとの役割分担

RAGは規定・文書のオンデマンド検索向き

リアルタイム業務状態はオントロジーが担当

記憶・検索・観測の認知モデルを提唱

課題と市場展望

統合工数の実質削減が普及の鍵

組織的対応が技術以上の障壁に

セマンティック層が新たなインフラ責務に

詳細を見る

Microsoftは2026年3月、データ基盤「Fabric」のセマンティック知能層Fabric IQを大幅に拡張し、業務オントロジーをMCP（Model Context Protocol）経由であらゆるベンダーのAIエージェントに開放すると発表しました。

企業内で複数のAIエージェントが異なるプラットフォーム上で稼働する現在、「顧客」「注文」「地域」といったビジネス用語の定義がエージェント間で食い違う問題が深刻化しています。Fabric IQはこの断片化を解消し、全エージェントが共通のビジネスコンテキストを参照できる基盤を目指します。

Fabric CTO のアミール・ネッツ氏は、RAGが規定文書や技術資料の検索に適する一方、リアルタイムの業務状態（現在飛行中の航空機、クルーの休息時間など）にはオントロジーが不可欠だと説明しました。記憶・オンデマンド検索・リアルタイム観測を組み合わせる認知モデルが必要だと強調しています。

同時に発表されたDatabase Hubは、Azure SQL・Cosmos DB・PostgreSQL・MySQL・SQL Serverを単一の管理・監視レイヤーに統合するものです。IDCは2029年までに企業データ基盤の60%がトランザクションと分析のワークロードを統合すると予測しており、Microsoftの方向性は市場潮流と合致しています。

アナリストらは方向性を評価しつつも、MCP接続が実際に統合工数を削減できるか、またセマンティック層の信頼性・ガバナンスの確保が課題だと指摘しています。データエンジニアリングチームにとって、ビジネスオントロジーの構築・バージョン管理・運用が新たな責務となり、組織体制の整備が急務です。

出典：VentureBeat

Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

2026年03月17日 NVIDIA Qwen アシスタントワークフロー Llama 推論 GPU コーディングエージェント RAG

KVTCの技術概要

JPEG由来の変換符号化を応用

PCAでKVキャッシュの冗長性を除去

動的計画法で次元別にビット配分を最適化

GPU上でエントロピー符号化を並列実行

性能と導入効果

20倍圧縮で精度低下1%未満

最初のトークン生成を最大8倍高速化

モデル重み変更不要で既存環境に導入可能

適用と今後の展望

長文脈・マルチターン用途に最適

vLLM互換のDynamoフレームワークに統合予定

詳細を見る

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC（KV Cache Transform Coding）」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析（PCA）でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidiaのnvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaのAdrian Lancucki氏は、コーディングアシスタントやエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。

出典：VentureBeat

ブリタニカ百科事典がOpenAIを著作権侵害で提訴

2026年03月16日 OpenAI Anthropic Perplexity ChatGPT 検索 GPT-4 ハルシネーションコンテンツ著作権無断学習米国出版社 RAG

訴訟の主な主張

約10万件の記事を無断学習

GPT-4が内容を丸暗記と主張

逐語的複製の出力例を提示

RAG経由の著作物利用も違法と指摘

業界への波及

NYTなど多数メディアが類似訴訟

Anthropicは15億ドルで和解済み

Perplexityへの訴訟も係属中

AI学習の法的先例は未確立

詳細を見る

訴状によると、OpenAIのGPT-4はブリタニカの著作権コンテンツの多くを「暗記」しており、要求に応じてほぼ逐語的なコピーを出力するとされています。実際に訴状にはOpenAIの出力とブリタニカの原文が並べて掲載され、全文が一致する箇所が複数示されています。

さらにブリタニカは、ChatGPTが自社コンテンツと直接競合する回答を生成することでウェブトラフィックを奪い、従来の検索エンジンのようにユーザーを自社サイトに誘導しないと主張しています。またハルシネーションをブリタニカに帰属させる行為は商標法違反にも当たると訴えています。

この訴訟はAI企業に対する著作権訴訟の急増を反映しています。ニューヨーク・タイムズ、ジフ・デイビス、米国・カナダの十数紙がすでにOpenAIを提訴しており、Perplexityに対する同様のブリタニカ訴訟も係属中です。

法的には、著作権コンテンツをLLM学習に使うことが侵害に当たるかの明確な判例はまだ確立されていません。ただしAnthropicの訴訟では、連邦判事が学習データとしての利用自体は変容的使用と認めつつ、書籍の違法ダウンロードを問題視し、15億ドルの和解が成立しました。今後の判決がAI業界全体の方向性を左右する可能性があります。

出典：The Verge | TechCrunch

DataRobotがNVIDIAと協業しAIエージェント基盤を強化

2026年03月16日 NVIDIA 推論 GPU ハードウェア認証エージェントコンテキストベンチマークトランスフォーマー RAG

統合プラットフォーム

Nemotron 3 Superをワンクリック展開

GPU自動最適化で推論環境を構築

思考予算調整でコスト14倍削減も可能

マルチテナント制御で複数チーム同時利用

ガバナンスと認証

Okta連携でエージェントにID付与

静的APIキーから短命トークンへ移行

EU AI Act等の規制準拠を自動化

ハードウェア基盤

RTX PRO 4500を推論エンジンとして検証済み

32GB VRAMでオンプレミス展開にも対応

詳細を見る

DataRobotは2026年3月、NVIDIAと共同開発したAgent Workforce Platformにおいて、大規模言語モデル「Nemotron 3 Super」のワンクリック展開機能を発表しました。企業がAIエージェントを本番環境で安全に運用するための統合基盤を提供します。

Nemotron 3 Superは1200億パラメータのハイブリッドMamba-Transformerモデルで、100万トークンのコンテキストウィンドウを備えています。DataRobotのプラットフォームでは、GPU構成の自動推奨、監視・アクセス制御の即時有効化、チーム別クォータ管理が標準で組み込まれており、展開直後から運用可能な状態になります。

コスト管理面では、思考予算の調整により同一モデルで精度とコストのトレードオフを制御できます。金融推論ベンチマークでは、最高設定で約86%の精度に対し、最低設定でも約74%を維持しつつトークン消費を14分の1に抑えられることが実証されました。

ガバナンス面では、Oktaとの統合により、AIエージェントを企業ディレクトリ上の独立したIDとして管理する仕組みを実現しました。従来の共有APIキーによる認証では、非決定的なエージェントの行動追跡や即時無効化が困難でしたが、ID基盤型ガバナンスにより人間と同一の管理体系でエージェントを統制できます。

ハードウェア面では、NVIDIA RTX PRO 4500をDataRobotプラットフォームの推論エンジンとして技術検証済みであることを発表しました。32GBのGDDR7メモリとBlackwellアーキテクチャを搭載し、リアルタイム物流最適化やRAGパイプラインなど、エージェント型ワークロードに最適化された性能を提供します。

出典：datarobot.com | datarobot.com | datarobot.com

Qdrant、エージェントAI向けベクトル検索で5000万ドル調達

2026年03月12日検索インフラ資金調達エージェントコンテキスト RAG

資金調達と新版の狙い

シリーズBで5000万ドル調達

前回のシリーズAから2年で実施

v1.17でエージェント対応強化

関連性フィードバッククエリを搭載

RAGからエージェントへの転換

エージェントは毎秒数千クエリを発行

コンテキストウィンドウでは検索代替不可

メモリ基盤も内部でベクトル検索を利用

本番環境での実証

GlassDollarがインフラ費用40%削減

特許訴訟AI企業&AI;が検索基盤に採用

詳細を見る

ベクトル検索企業のQdrantは、シリーズBラウンドで5000万ドル（約75億円）の資金調達を発表しました。同時にプラットフォームのバージョン1.17をリリースし、AIエージェント時代の情報検索基盤としての地位を強化しています。

同社CEOのアンドレ・ザヤルニ氏は、人間が数分に数回のクエリを行うのに対し、エージェントは毎秒数百から数千のクエリを発行すると説明しています。この負荷はRAG時代の設計では対応できず、専用の検索インフラが不可欠だと主張しています。

v1.17では三つの課題に対応しています。関連性フィードバッククエリで再学習なしに検索精度を向上させ、遅延ファンアウト機能でレプリカの応答遅延を回避し、クラスタ全体のテレメトリAPIで運用監視を一元化しています。

導入企業のGlassDollarは、Elasticsearchからの移行でインフラコストを約40%削減し、ユーザーエンゲージメントが3倍に向上しました。特許訴訟AI企業の&AI;も、数億件の文書を対象とした意味検索基盤としてQdrantを採用しています。

ザヤルニ氏はQdrantを「ベクトルデータベース」ではなく「AI時代の情報検索レイヤー」と位置づけています。Rustで構築された高効率アーキテクチャとオープンソース戦略により、大手ベンダーとの差別化を図る方針です。

出典：VentureBeat

Google、初のマルチモーダル埋め込みモデル「Gemini Embedding 2」公開

2026年03月10日 Google LangChain Gemini 検索ワークフロー Llama エンジニア推論画像動画音声コンテキスト LlamaIndex RAG

対応モダリティと性能

テキスト・画像・動画・音声・PDFを統合

8192トークンの大規模コンテキスト対応

100言語以上の意味的理解が可能

テキスト/画像/動画で最高水準の精度

実装と活用事例

Gemini APIとVertex AIでパブリックプレビュー提供

Paramountの動画検索Recall@1が85.3%達成

Sparkonomy社でレイテンシを70%削減

LangChain・LlamaIndex等の主要フレームワーク対応

詳細を見る

Googleは2026年3月10日、Geminiアーキテクチャを基盤とした初の完全マルチモーダル埋め込みモデル「Gemini Embedding 2」をGemini APIおよびVertex AIでパブリックプレビューとして公開した。

同モデルはテキスト・画像・動画・音声・PDFドキュメントを単一の統一埋め込み空間にマッピングする。テキストは最大8192トークン、画像は1リクエスト最大6枚、動画は最大120秒に対応しており、RAGや意味検索、感情分析、データクラスタリングなど幅広いユースケースを簡素化する。

柔軟な出力次元を実現するMatryoshka Representation Learning（MRL）技術を採用しており、デフォルト3072次元から1536・768次元へと動的に削減できる。これにより開発者はパフォーマンスとストレージコストのバランスを最適化できる。

早期アクセスパートナーからは顕著な成果が報告されている。Paramount Skydanceは動画資産検索のRecall@1を85.3%に向上させ、Sparkonomy社はLLM推論を排除することでレイテンシを最大70%削減、テキスト・画像間の意味的類似度スコアを0.4から0.8へほぼ2倍に改善した。

同モデルはLangChain・LlamaIndex・Haystack・Weaviate・Qdrant・ChromaDB・Vector Searchなど主要なフレームワークおよびベクターデータベースと統合可能であり、既存ワークフローへの最小限の変更での導入が可能だ。

出典：Google公式

Databricks、強化学習で万能型RAGエージェント「KARL」を開発

2026年03月05日 Claude 検索 Opus 強化学習 GPU ポリシーエージェントコンテキストベンチマーク Databricks GRPO RAG

KARLの技術的革新

6種の検索行動を同時学習

合成データのみで人手ラベル不要

OAPLアルゴリズムで学習効率3倍

コスト33%減・遅延47%減を達成

企業RAGへの示唆

単一タスク最適化は他タスクで破綻

マルチタスクRLで未知タスクにも汎化

文脈圧縮をエンド・ツー・エンドで学習

SQL・ファイル検索は今後の課題

詳細を見る

Databricksは、強化学習を活用した企業向けRAG エージェント「KARL（Knowledge Agents via Reinforcement Learning）」を発表しました。6種類の企業検索行動を同時に学習させることで、単一タスク特化型の限界を克服するモデルです。

従来の企業向けRAGパイプラインは、特定の検索パターンに最適化されており、複数文書の横断的な統合や制約付きエンティティ検索など、異なるタスクには対応できませんでした。KARLは独自ベンチマーク「KARLBench」でClaude Opus 4.6と同等の性能を、クエリあたりコスト33%減・遅延47%減で達成したと同社は主張しています。

学習には新アルゴリズム「OAPL」を採用しています。従来のGRPOが前提とするオンポリシー同期の制約を撤廃し、400勾配ステップ以上のポリシー遅延でも安定動作します。サンプル効率が約3倍向上し、数千GPU時間で全学習を完了できるため、企業チームでも現実的に取り組める規模です。

注目すべきは、KARLが文脈圧縮をエンド・ツー・エンドで自己学習する点です。一部のタスクでは200回の連続ベクトルDB検索が必要となり、コンテキストウィンドウを何度も超過します。圧縮機能を除去すると精度が57%から39%に低下しており、この自律的な圧縮能力が性能の鍵となっています。

一方で課題も明確です。曖昧な質問への対応や途中で回答を断念するケースが残り、SQL検索やPython計算には未対応です。それでも、汎用フロンティアAPIにすべてを委ねるのではなく、目的特化型の検索エージェントを強化学習で育てるアプローチは、企業のRAG戦略に再考を迫る重要な成果といえます。

出典：VentureBeat

Inception Mercury 2がVercel AI Gatewayで提供開始

2026年03月04日 Vercel アシスタント推論音声コーディングエージェント RAG

Mercury 2の特徴

推論品質をリアルタイム遅延で実現

エージェント・コード補助・音声に最適

RAGパイプラインの遅延累積を解消

AI Gatewayの機能

統合APIでモデル呼び出しを一元管理

自動リトライとフェイルオーバー対応

オブザーバビリティ機能を標準搭載

自前APIキーの持ち込みに対応

プロバイダルーティングで高可用性確保

詳細を見る

Inceptionが開発した大規模言語モデル「Mercury 2」が、VercelのAI Gatewayを通じて利用可能になりました。AI SDKでモデル名を「inception/mercury-2」と指定するだけで呼び出すことができます。

Mercury 2の最大の特徴は、推論グレードの品質をリアルタイムの低遅延で提供できる点です。エージェントループやコーディングアシスタント、音声インターフェースなど、応答速度が重要な用途に適しています。

特にRAGパイプラインのように複数のLLM呼び出しが連鎖する処理では、各ステップの遅延が累積してボトルネックとなります。Mercury 2はこの課題を低遅延性能で解決し、実用的な応答時間を維持します。

Vercel AI Gatewayは、複数のモデルプロバイダを統合APIで利用できるサービスです。使用量やコストの追跡、リトライ・フェイルオーバーの自動設定により、プロバイダ単体を上回る稼働率を実現します。

同サービスにはオブザーバビリティ機能やBYOK（自前キー持ち込み）サポートも組み込まれています。モデルのリーダーボードやプレイグラウンドも公開されており、導入前の比較検証が容易です。

出典：vercel.com

SurrealDB 3.0がRAGを一元化

2026年02月17日検索エンジニア RAG

RAGアーキテクチャの簡素化

5種のDBを1つに統合

ベクター・グラフ・文書DB機能を内包

RAGスタックの複雑性解消

詳細を見る

SurrealDB 3.0は、典型的なRAG（検索拡張生成）スタックで必要とされる5種類のデータベース（ベクターDB、グラフDB、文書DB、リレーショナルDB、キャッシュ）を1つのシステムで代替することを目指しています。

複数のデータベースシステムの運用管理はエンジニアリングの複雑性とコストを増大させますが、SurrealDBはこれを統合型アーキテクチャで解決します。RAGシステムを構築する開発者にとって検討に値する選択肢です。

出典：VentureBeat

AIボットトラフィックの謎の急増がウェブを席巻、正体は不明

2026年02月12日広告エージェント RAG

ボットトラフィック急増

説明不可能なボットトラフィックがウェブ全体に拡散

AIエージェントによる自律的ウェブ巡回が背景か

ウェブサイトの負荷増大と収益モデルへの影響

詳細を見る

ウェブ全体で出所不明のボットトラフィックが急増していることが報告されています。このトラフィックの多くはAIエージェントやクローラーによるものと疑われていますが、その全容は解明されていません。

一部はLLMのトレーニングデータ収集、別の部分はRAGシステムのためのリアルタイム情報収集、そしてエージェントAIの自律的なウェブ操作など複数の要因が重なっていると考えられます。

この現象はウェブサイト運営者にとって深刻な課題です。広告収益と実際の人間ユーザー数の乖離、サーバーコストの増大、そして正当なトラフィックの判別が難しくなっています。

出典：WIRED | Ars Technica

観測メモリ技術、エージェントコスト10分の1に

2026年02月10日検索チャットボットエンジニアエージェントコンテキストベンチマーク RAG

技術の概要

RAGを上回る長文性能

エージェントコストを90%削減

観測メモリという新手法

実用的な意義

長期実行エージェントに最適

ツール連携の効率化

本番システムへの適用可能

詳細を見る

「観測メモリ」と呼ばれる新手法が、AIエージェントのコストを従来の10分の1に削減し、長文コンテキストのベンチマークでRAGを上回る成果を示しました。

従来のRAGはチャットボット向けには有効ですが、ツールを多用する長期実行エージェントでは速度と知性の面で限界がありました。この手法はその課題を解決します。

観測メモリはエージェントの行動や環境情報を効率的に蓄積・参照する仕組みです。明示的な検索ステップを省略できレイテンシが大幅に改善されます。

本番システムに組み込まれたエージェントでは、コスト削減と性能向上の両立が重要な課題です。この手法は実運用でのメリットが明確です。

RAGの代替・補完としての観測メモリは、エージェント開発者にとって重要な選択肢となる可能性があり、今後の研究動向が注目されます。

出典：VentureBeat

グラフデータベースをRAGパイプラインに統合する実践ガイドが公開

2026年02月06日 Amazon 検索アシスタントエンジニア推論 RAG

技術の詳細

グラフDB×RAGの統合方法

知識グラフで複雑な関係を表現

ベクトル検索との組み合わせ手法

多段推論が必要な質問に対応

DataRobotが実践ガイドを公開

Neo4j等の主要ツールを紹介

エンタープライズAIへの応用

複雑な業務知識の構造化

エンティティ関係の精緻な表現

検索精度の大幅向上

詳細を見る

DataRobotは2026年2月6日、グラフデータベースをRAG（検索拡張生成）パイプラインに組み込むための実践的な統合ガイドを公開した。

グラフデータベースはエンティティ間の複雑な関係性を表現するのに優れており、製品の部品構成、組織の関係図、法規制の依存関係などの「つながり」を持つデータに特に有効だ。

通常のベクトル検索（Pinecone、Weaviateなど）は類似性の検索に優れるが、多段推論（A→B→CのようなChain of Thought的な関係）には弱い。グラフDBはこれを補完する。

実装例としてNeo4j、ArangoDB、Amazon Neptuneとの統合パターンが示され、ハイブリッドRAGアーキテクチャの構築手法が詳述されている。

エンタープライズ向けAIアシスタントや社内知識検索システムの精度向上を目指す開発者にとって、グラフ統合RAGは次の重要な実装テーマとなっている。

出典：datarobot.com

MITがAIエージェントの検索を最適化しLLM精度を向上させる研究を発表

2026年02月05日検索ハルシネーション MIT エージェント RAG

研究成果の内容

AIエージェントの検索最適化手法

LLM精度の大幅な向上を実現

検索クエリの自動精緻化

ハルシネーションの低減効果

RAGシステムへの応用可能性

MIT NEWSが研究詳細を公開

実用への応用

企業検索システムの精度向上

知識ベース活用の効率化

エージェントAIの信頼性強化

詳細を見る

MITの研究チームは2026年2月5日、AIエージェントが情報検索をより効果的に行うための新手法を発表した。LLMの回答精度を大幅に向上させる成果として注目される。

研究では、AIエージェントが検索クエリを自動的に最適化・精緻化することで、必要な情報を一度の検索で取得できる確率を高める手法を開発した。

この手法によりハルシネーション（誤情報生成）が低減され、企業のRAGシステムや顧客対応AIの信頼性向上に直接応用できる。

エージェントAIが自律的に検索戦略を立案する能力は、複雑な業務調査や競合分析、法規制調査などのユースケースで大きな価値を持つ。

MITの研究成果は将来的にオープンソース化される見込みで、エージェントAIシステムの信頼性を底上げする基盤技術として期待されている。

出典：MIT News

NvidiaのNemotronモデルがマルチモーダル検索と文書AIを強化

2026年02月04日 NVIDIA 検索エコシステム ERP 画像日本ベンチマーク Hugging Face RAG

モデルの性能と用途

ColEmbed V2がマルチモーダル検索首位

ViDoRe V3ベンチマークでトップ達成

Nemotron AgentsがAIリアルタイムBI実現

文書構造を理解した情報抽出

RAGパイプラインとの高い親和性

エンタープライズ文書処理の革新

ビジネス活用

非構造化文書からKPI抽出

業務意思決定支援の即時化

Nvidia エコシステムとの統合促進

詳細を見る

Nvidiaは2026年2月4日、マルチモーダル検索モデル「Nemotron ColEmbed V2」がHuggingFaceのViDoRe V3ベンチマークでトップスコアを達成したと発表した。

ColEmbed V2は画像・テキスト・表・チャートを統合したマルチモーダル文書検索において卓越した性能を持ち、企業の複雑な文書からの情報抽出を実現する。

Nemotron Agentsはリアルタイムで文書をビジネスインテリジェンスに変換するシステムで、ERPデータやレポートから即座にKPIを算出できる。

これらのモデルはNvidiaのAI基盤（NIM）上で動作し、既存のRAGアーキテクチャや検索システムへの統合が容易だ。

日本企業においても大量の非構造化文書（契約書、報告書等）を持つ組織にとって、文書AI自動化の実用性が高まった重要な進展だ。

出典：Hugging Face | NVIDIA公式

AIボットがウェブトラフィックの主要発生源となった実態

2026年02月04日検索広告リスクコンテンツ著作権 RAG

トラフィック構成の変化

AIクローラーが웹トラフィックの主要源

人間のブラウジングを上回る傾向

RAGシステムのデータ収集が急増

robots.txt無視のボットが問題化

コンテンツ作成者への収益損失リスク

Wiredが最新データで実態報告

コンテンツ・広告業界への影響

広告インプレッションの品質低下

ペイウォール回避手法の進化

コンテンツ経済の構造的変化

詳細を見る

Wiredは2026年2月4日、AIボットがウェブトラフィックの重要な構成要素となっており、一部サイトでは人間ユーザーを上回ると報じた。

AIシステムがRAG（検索拡張生成）のためのデータ収集やモデル学習用データ取得を目的とするクローリングが急増していることが背景にある。

多くのAIクローラーはrobots.txtの指示を無視するか、人間のブラウザを偽装してアクセスするため、サイト運営者がアクセス制御をしにくい状況になっている。

ウェブ広告ビジネスの基盤であるインプレッション数にAIボットトラフィックが混入することで、広告効果の測定精度が低下するリスクがある。

コンテンツ制作者にとってはAIが無断でコンテンツを学習・転用することへの対価問題も浮上しており、著作権とAIの関係を巡る法的議論も加速している。

出典：WIRED

企業のRAG評価は指標を間違えており本質的な問題を見逃している

2026年02月01日検索ワークフロー RAG

RAG評価の誤り

検索精度ではなく誤った指標

パイプラインのシステム依存化問題

エンタープライズRAGの根本課題

正しい評価アプローチ

レイテンシーと可用性の重視

エンドツーエンドのビジネス成果測定

自律型システムへの備え

詳細を見る

多くの企業がRAGシステムを評価する際、実際のビジネス成果ではなく検索精度のような狭義の技術指標のみを測定しており、本質的な問題を見逃しています。

RAGはLLMに取り付けられた機能ではなく、今やワークフロー自動化の中核的なシステム依存要素となっており、信頼性・レイテンシー・可用性の評価が必須です。

特に半自律型AIシステムが重要な意思決定を担う場面では、検索の失敗が連鎖的に誤判断を引き起こす危険があり、エラー伝播の測定が不可欠です。

エンタープライズが本当に測定すべきは、RAG 検索がエンドユーザーの行動やビジネス指標にどう影響するかという因果的評価です。

AI自律化が進む現在、RAG評価の刷新は企業のAI戦略の信頼性を左右する戦略的課題となっています。

出典：VentureBeat

ほとんどのRAGシステムは高度な文書を理解せず断片化する

2026年01月31日 RAG

技術的問題

RAGが高度な文書で失敗

チャンキングの限界

文脈の消失

解決策の方向性

構造認識型RAG

ドキュメントグラフ活用

より賢いインデックス設計

詳細を見る

大半のRAGシステムは複雑な構造を持つ文書（技術仕様書、財務報告書など）を適切に理解できず、ただ断片化して意味を失ってしまうという根本的な問題が指摘されています。

この問題を解決するためには文書の構造と意味的関係を認識した高度なインデックス設計と、グラフベースの情報取得アプローチが有効とされています。

出典：VentureBeat

ベクトル検索が失敗する文書で98.7%の精度を達成する木探索フレームワーク

2026年01月30日検索医療 RAG

技術の概要

ベクトル検索の限界を超える

98.7%の高精度

木構造探索の活用

実用的価値

複雑文書理解の改善

RAGシステムの強化

エンタープライズ知識管理

詳細を見る

ベクトル検索が失敗する複雑な文書構造に対して、木構造探索を活用することで98.7%という高い精度を達成する新しいフレームワークが発表されました。

RAGシステムの精度向上はエンタープライズの知識管理と情報検索の品質を大幅に改善し、特に法律や医療のような複雑な文書を扱う分野での活用が期待されます。

出典：VentureBeat

Contextual AIがエンタープライズRAGをAgent Composerで本番展開可能に

2026年01月27日エージェント RAG

Agent Composerの概要

エンタープライズRAGの本番化支援

エージェントとRAGの統合

既存システムとの統合容易化

実用価値

RAGパイプラインの品質向上

エンタープライズ知識管理

プロダクション信頼性確保

詳細を見る

Contextual AIはAgent Composerを発表し、エンタープライズのRAGシステムを研究段階から本番環境への展開を支援するツールを提供します。

RAGとAIエージェントの統合は複雑なエンタープライズナレッジ管理の課題を解決し、本番品質の信頼性を確保します。

出典：VentureBeat

OpenAIのPostgreSQL拡張がエンタープライズDB設計に示す教訓

2026年01月23日 OpenAI エンジニアクラウド RAG

技術的教訓

シャーディング戦略の詳細

接続プーリングの最適化

読み取りレプリカの活用

pgvectorでRAG統合

エンタープライズへの示唆

オープンソースDBでの大規模化

AIアプリ設計のベストプラクティス

コスト効率の実証

DB管理者の学習リソース

詳細を見る

VentureBeatはOpenAIのPostgreSQL拡張に関するエンジニアリング事例を詳しく分析した。8億ユーザーへのスケール事例は、エンタープライズがAIアプリを大規模展開する際のデータベース設計の参考になる。

特に接続プーリングの設計、pgvectorによるRAGとの統合、読み取りレプリカの最適活用が実践的な指針として注目される。

商用クラウドDBではなくオープンソースPostgreSQLでメガスケールを実現できることを示した点は、エンタープライズのコスト最適化にとって重要な示唆を持つ。

出典：VentureBeat

OpenAIが8億ユーザーへのPostgreSQL拡張手法を公開

2026年01月22日 OpenAI ChatGPT エンジニアクラウド RAG

技術的詳細

8億ユーザーのChatGPTを支える

PostgreSQLの大規模拡張手法

シャーディング・接続プール設計

pgvectorとのRAG統合

エンタープライズへの示唆

既存技術でのスケール実証

クラウドネイティブDB設計

データベース管理者への知見

AI時代の基盤設計

詳細を見る

OpenAIのエンジニアリングブログは、PostgreSQLを8億人のChatGPTユーザーに対応するためにどのように拡張・最適化したかを詳細に公開した。オープンソースRDBでのメガスケール実装の知見だ。

シャーディング・接続プーリング・読み取りレプリカの設計、およびpgvectorを使ったRAGとの統合手法が具体的に説明されている。

エンタープライズのAIシステム設計者にとって、大規模AIアプリのデータベース設計における実用的なベストプラクティスとして直接参考になる内容だ。

出典：OpenAI公式

MemRLがファインチューニングなしでRAGを超える

2026年01月22日検索推論強化学習ファインチューニングエージェントベンチマーク RAG

技術の詳細

強化学習ベースのメモリ管理

RAGより複雑な推論で優位

追加学習不要で即時適用

長期記憶を自動的に形成

RAGへの影響

RAGアーキテクチャの限界を示す

ベクタDB依存の代替手法

複雑エージェントへの応用

次世代RAGへの進化

詳細を見る

VentureBeatが報じたMemRL（Memory Reinforcement Learning）は、ファインチューニングなしに強化学習でAIエージェントの記憶を管理し、複雑なベンチマークでRAGを超えた性能を示した。メモリ管理の新アプローチだ。

RAGはベクタDBへの依存と検索精度の限界があるが、MemRLは強化学習によりエージェントが自律的に重要情報の記憶・忘却を管理するため、より柔軟だ。

エンタープライズでのAIエージェント展開において、MemRLのアプローチが既存RAGシステムの代替または補完技術として注目される。

出典：VentureBeat

MITの再帰フレームワークでLLMが1000万トークンをコンテキスト劣化なく処理

2026年01月20日 Google OpenAI Anthropic MIT コンテキスト RAG

技術の革新点

1000万トークンの処理を実現

再帰的フレームワークによる解決

コンテキスト劣化を防ぐ設計

長文書処理が現実的に

メモリ効率も改善

実用的なインパクト

法律文書全体を一度に処理

長編小説の一括分析が可能

コードベース全体を把握できる

企業データの大規模分析

RAG不要のシナリオが増える

詳細を見る

MITの研究者が新しい再帰的フレームワークを開発し、LLMが1000万トークンという超長文脈を「コンテキスト劣化」なく処理できることを実証しました。

従来のモデルは文脈が長くなるほど「迷子」になり、文書の後半部分の内容を正確に参照できなくなる問題がありました。このフレームワークはその問題を解決します。

1000万トークンというのは、書籍数冊分や大規模なコードベース全体に相当する量です。これによりRAGアーキテクチャなしに大量の文書を直接モデルに入力できる可能性があります。

長文脈処理は現在のLLM研究における最重要テーマの一つであり、Google、OpenAI、Anthropicなども競争的にコンテキスト窓の拡張に取り組んでいます。

出典：VentureBeat

Differential Transformer V2がアテンション機構の効率を大幅改善

2026年01月20日検索トランスフォーマー RAG

技術的革新

差分アテンションの第2世代

ノイズ除去精度が向上

長文脈での性能が改善

計算効率も向上している

既存モデルにも適用可能

研究・応用への影響

Transformerアーキテクチャを刷新

RAGの精度向上に応用可能

長文書処理の実用性が高まる

コスト削減効果が期待される

GPT後継モデルへの採用可能性

詳細を見る

Differential Transformer V2が発表されました。この研究は差分アテンション機構の第2世代として、従来のTransformerよりも効率的かつ精度の高いアテンション計算を実現します。

差分アテンションは2つのアテンション出力の差分を取ることでノイズを除去する仕組みです。V2ではこの機構がさらに洗練され、長文脈での精度が大幅に向上しています。

RAG(検索拡張生成)や長文書の要約・分析など、実用的なユースケースでの性能向上が期待されます。計算コストも改善されており、実装上の魅力があります。

LLMのアーキテクチャ研究は競争が激しく、このようなアテンション効率化の成果は次世代モデル開発に直接影響します。

出典：Hugging Face

「コンテキストエンジニアリング」がAI出力品質向上の鍵として注目

2026年01月12日 GitHub エンジニアプロンプトコンテキスト RAG

概念と実践

プロンプトだけでなくコンテキスト全体を設計

システムプロンプト・RAG・ツールの統合設計

LLMの限界を補完する体系的アプローチ

プロンプトエンジニアリングの進化形

GitHub公式ブログでの解説が注目集める

詳細を見る

GitHubの公式ブログで紹介されたコンテキストエンジニアリングは、単なるプロンプトの書き方を超えて、LLMに与えるすべての情報（システムプロンプト、RAGデータ、ツール定義、会話履歴）を体系的に設計するアプローチです。

AIプロダクトの出力品質が伸び悩む要因の多くはプロンプトではなくコンテキスト設計の問題であるという指摘は、LLMアプリケーション開発者にとって実践的な示唆を持ちます。モデル選定よりもコンテキスト設計の改善が費用対効果の高い品質向上手段となるケースが多いとされています。

出典：GitHub公式

AI推論セキュリティ：11の実行時攻撃がCISOを動かす

2026年01月09日推論リスクプロンプトインジェクションセキュリティ日本エージェントプロンプト RAG

AIランタイム攻撃の実態

VentureBeatがCISOを動かす11種類の推論攻撃を特集

プロンプトインジェクション・データ抽出・モデル操作

ジェイルブレイク手法が本番AIシステムに到達

エージェント型AIシステムが新しい攻撃面を生む

RAG・ツール呼び出しを悪用したサイドチャネル攻撃

企業AIの本番稼働が攻撃者の標的に

詳細を見る

VentureBeatの詳細な調査記事は、CISOがAI推論セキュリティプラットフォームの導入を決断する11の主要なランタイム攻撃手法を分類しました。プロンプトインジェクションから、RAG経由のデータ抽出、ツール呼び出しを悪用したサイドチャネル攻撃まで、現実の企業AIシステムに対して行われている攻撃手法が網羅されています。

エージェント型AIシステムの普及によって、攻撃面（アタックサーフェス）が大幅に拡大しています。AIエージェントがツールを呼び出し、外部システムと連携し、コードを実行する能力を持つため、従来のセキュリティ境界では守り切れない新しいリスクが生まれています。

AIセキュリティプラットフォーム市場が急速に成長しており、CISOは本番環境のAIシステムを守るための専門ツールの導入を急いでいます。日本企業でもAIセキュリティの内製化・外部委託を検討する動きが広がっています。

出典：VentureBeat

DatabricksのInstructed Retrieverが従来型RAGを凌駕

2026年01月08日 LangChain 検索 Llama エンジニアエージェントコンテキスト Databricks Snowflake LlamaIndex RAG

新しいRAG手法の技術的優位性

DatabricksがInstructed Retrieverを発表

指示に従ったデータ取得で従来RAGを超える精度

複雑なクエリや暗黙的な情報ニーズへの対応力

指示チューニングでretrieverを特化させる手法

ベクター検索と組み合わせたハイブリッドアプローチ

DatabricksのUnity Catalogと統合して利用可能

エンタープライズRAGへの応用

企業内ナレッジの精度の高い取得が可能に

従来の「質問に似た文書を探す」から「意図を理解して探す」へ

コンテキスト不明確なクエリでも適切な情報を取得

社内文書・法務・財務データへの応用が期待

Databricksを使う企業のRAGパイプライン改善に直結

既存のLangChain・LlamaIndexとの互換性を維持

詳細を見る

Databricksは、従来のRAG（検索拡張生成）の限界を超える「Instructed Retriever」という新しいデータ取得手法を発表しました。従来のベクター類似検索は「質問に意味的に近い文書を探す」ものでしたが、Instructed Retrieverは明示的な指示に従って意図を理解した上で情報を取得します。

複雑なビジネスクエリや、ユーザーが何を求めているか明示的に伝えていないケースでも、文脈と意図を推定して適切なデータを取得できます。Databricksの統合データプラットフォームUnity Catalogと組み合わせることで、企業全体のデータ資産へのRAGアクセスが改善されます。

エンタープライズRAGの精度は、AIエージェントの有用性に直結する根幹技術であり、この改善はDatabricksを使うデータ・エンジニアリングチームにとって即座に価値が生まれる成果です。競合のSnowflake Cortex AIとの差別化にも貢献します。

出典：VentureBeat

小型モデルがマルチモーダル検索の精度を大幅に向上

2026年01月06日検索 Llama クラウド画像医療 Hugging Face RAG

Llama Nemotron RAGモデルの性能

HuggingFaceがLlama Nemotron RAGモデルを公開

マルチモーダル検索で大型モデルに匹敵する精度

視覚的なドキュメント検索（VDR）の精度を改善

テキストと画像の混在したドキュメントを効率処理

小型かつ高速なモデルで運用コストを削減

RAGパイプラインへの組み込みが容易な設計

実務への応用と意義

ドキュメント処理の精度とコストを両立

PDFや表・グラフを含む複合文書に強い

クラウドに依存しないローカル展開が可能

金融・法務・医療などの業種で高い需要

エンタープライズ検索システムの精度向上に貢献

オープンソースで無償利用できる利点も大きい

詳細を見る

HuggingFaceは、小型でありながら高い精度を持つLlama Nemotron RAGモデルの詳細を発表しました。このモデルはマルチモーダル検索と視覚的なドキュメント検索（VDR）において、はるかに大型のモデルと競争できる性能を持ちます。

特に、テキストと図表・画像が混在するPDFや業務文書の検索において優れた結果を示しています。RAGパイプラインに組み込むことで、エンタープライズ検索システム全体の精度向上が期待できます。

小型モデルの高性能化というトレンドの典型例として、オンプレミスや低コストクラウドでの展開が可能であり、クラウドへのデータ送信をためらう金融・医療・法務などのセンシティブな業界での活用が広がりそうです。

出典：Hugging Face

マドゥロ拘束でAI生成偽情報が氾濫、ChatGPTも誤情報を発信

2026年01月03日 ChatGPT 検索ディープフェイクコンテンツ画像動画米国トランプ RAG

リアルタイム偽情報の爆発的拡散

米軍のベネズエラ侵攻・マドゥロ拘束後即座に偽情報氾濫

AI生成コンテンツが事実確認前に拡散

Xなど主要SNSがフェイクの温床に

ディープフェイク動画が信頼できる情報に見えた

速報性と真実性のトレードオフが深刻化

ソーシャルメディアの情報信頼性が問われる

ChatGPTの誤情報問題と信頼性の課題

ChatGPTがマドゥロ拘束の事実を否定する回答

トレーニングデータのカットオフが原因

リアルタイム情報へのアクセス欠如が露呈

ユーザーはChatGPTを事実情報源として信頼

AIの「自信ある誤答」が誤解を増幅

ニュース速報時代のAI信頼性設計が課題

詳細を見る

米国軍がベネズエラに侵攻しニコラス・マドゥロ大統領を拘束したという歴史的な出来事の直後、AI生成の偽情報がソーシャルメディア上で爆発的に拡散した。深夜に始まったトランプ大統領の発表から数分以内に、事実確認のされていない画像・動画・テキストが大量に流通した。

特に問題となったのは、ChatGPTがマドゥロ拘束という事実を否定または知らないと回答し続けたことだ。ユーザーは速報情報をAIに確認しようとしたが、ChatGPTのトレーニングデータのカットオフにより正確な情報が提供できなかった。

AIが「知らない」と回答する場合より、誤った事実を自信を持って回答する場合の方が被害が大きい。今回のケースでは、ChatGPTの否定的な回答がむしろ偽情報拡散を助長する逆説的な状況が生まれた。

ソーシャルメディア上では、AIで生成された偽のマドゥロの動画・偽の政府声明・改ざんされた衛星画像などが出回り、情報の真偽判断が著しく困難になった。従来のファクトチェック機関が追いつけない速度での拡散だった。

この事件は、リアルタイムの政治的出来事におけるAIの情報信頼性設計の根本的な問題を浮き彫りにした。RAG（検索拡張生成）や最新ニュース連携機能の重要性が改めて認識されるとともに、AIの回答に対するユーザーリテラシー教育の必要性も高まっている。

出典：WIRED | WIRED

2026年データ予測：RAGは死んだ、次世代AI基盤はどこへ

2025年12月31日検索インフラエージェントコンテキスト Snowflake RAG

RAGの終焉と代替技術

従来のRAGパイプラインは単一クエリ・単一ソースの限界

複数データソース統合とコンテキスト記憶が後継に

Snowflakeのエージェント型ドキュメント分析が先例

文脈的メモリがRAGの弱点を補う

エージェントが動的にデータを取得・統合する時代に

ベクターDBは単独では生き残れない——統合が必須

2026年データインフラ予測

リレーショナルDBがAI向けに再評価される

ベクター機能の既存DBへの埋め込みが主流化

専用ベクターDBは差別化が困難に

グラフDBとベクター検索の組み合わせが台頭

データガバナンスとAI統治の統合が必須に

エージェント時代の「継続的更新」データ基盤が求められる

詳細を見る

「RAGは死んだ」という主張がデータ業界で広がっています。従来のRAGアーキテクチャは単一クエリ・単一データソース・単一時点という制約があり、エージェントAIの多様なニーズに応えられなくなりました。VentureBeatが2026年のデータ予測を特集しています。

代替として注目されるのが文脈的メモリと改良型RAGの組み合わせです。Snowflakeのエージェント型ドキュメント分析など、複数データソースを動的に統合し、過去の対話も記憶するシステムが実用化されています。

ベクターデータベース市場も転換期にあります。Pinecone、Weaviate、Qdrantなどの専用ベクターDB製品は、PostgreSQL（pgvector）やMongoDB、Elasticなどの既存DBにベクター機能が統合されることで差別化が難しくなっています。

2026年の勝者は、リレーショナルデータ、ベクター検索、グラフ検索を統合しエージェントが自在に活用できるデータ基盤を提供できる企業です。データガバナンスとAIガバナンスの統合も不可避となります。

出典：VentureBeat

オープンソースAIが独自モデルに挑む三つの新展開

動画理解・視覚AIの前進

Ai2がオープンソース動画モデル「Molmo 2」を公開

8B・4B・7Bの3バリアントを提供

動画グラウンディングとトラッキングでGemini 3 Proを上回る性能

マルチ画像・動画クリップの入力に対応

ピクセルレベルの物体追跡が可能

小規模モデルで企業導入のコストを大幅に削減

エージェントメモリとAIコード開発の革新

HindsightがRAGの限界を超える4層メモリアーキテクチャを実現

LongMemEvalで91.4%の精度を達成し既存システムを凌駕

世界・経験・意見・観察の4ネットワークで知識を構造化

ZencoderがマルチモデルAIオーケストレーション「Zenflow」を無料公開

ClaudeとOpenAIモデルが互いのコードをクロスレビュー

構造化ワークフローでバイブコーディングを卒業しコード品質20%向上

詳細を見る

Ai2（アレン人工知能研究所）は2025年12月16日、オープンソースの動画理解モデル「Molmo 2」を公開しました。8B・4B・7Bの3種類を揃え、動画グラウンディングや複数画像の推論においてGoogleのGemini 3 Proを上回るベンチマーク結果を示しています。

Molmo 2の最大の特徴は「グラウンディング」能力の強化です。ピクセルレベルでの物体追跡や時間的な理解を可能にし、これまで大型独自モデルが独占してきた動画分析領域に本格参入しています。企業が動画理解をオープンモデルで賄える現実的な選択肢となりました。

一方、Vectorize.ioはVirginia Tech・ワシントン・ポストと共同でオープンソースのエージェントメモリシステム「Hindsight」を発表しました。従来のRAGが抱えていた「情報の均一処理」という根本問題に対し、4種類のネットワークで知識を分離する新アーキテクチャを採用しています。

HindsightはLongMemEvalベンチマークで91.4%という最高精度を達成しました。マルチセッション問題の正答率が21.1%から79.7%に、時間的推論が31.6%から79.7%へと大幅に向上しており、エージェントが長期的な文脈を保持する能力が飛躍的に改善されています。

このシステムは単一のDockerコンテナとして動作し、既存のLLM API呼び出しをラップするだけで導入できます。すでにRAG インフラを構築したものの期待通りの性能が得られていない企業にとって、実用的なアップグレードパスとなります。

ZencoderはAIコーディング向けのマルチエージェントオーケストレーションツール「Zenflow」を無料のデスクトップアプリとして公開しました。計画・実装・テスト・レビューを構造化ワークフローで処理し、AnthropicのClaudeとOpenAIのモデルが互いのコードを検証し合う仕組みを採用しています。

Zencoder CEOのFilev氏は「チャットUIはコパイロット向けには十分だったが、スケールしようとすると崩壊する」と述べています。複数のAIエージェントを並列実行し、モデル間のクロスレビューによってコード品質を約20%向上させるとしており、ビジョンは「プロンプトルーレット」から「エンジニアリング組み立てライン」への転換です。

3つの発表に共通するのは、オープンソースや無料ツールが独自クローズドモデルと競合できる水準に達しつつあるという潮流です。動画理解・長期メモリ・コード品質という異なる課題に対し、それぞれ構造的なアプローチで解決を試みており、エンタープライズAI活用の選択肢を広げています。

出典：VentureBeat | VentureBeat | VentureBeat

AI信頼性の危機：巻き戻し・ベンチマーク論争・根拠なき導入への警鐘

2025年12月16日 Google OpenAI Anthropic Gemini ChatGPT 検索 GPT-5 推論推論モデルプロンプトインジェクションセキュリティコンサルプロンプトベンチマーク RAG

OpenAIのモデルルーター撤回と消費者の本音

ChatGPTのモデルルーターをFree・Goユーザー向けに**静かに廃止**

推論モデルの利用率が1%未満から7%へ増加したが**DAUが低下**

思考中ドット20秒は「Googleより遅い」と利用離れを直撃

有料プラン（Plus・Pro）ではルーターを**継続提供**

GPT-5.2 Instantの安全性向上を理由に、センシティブ対話の特別ルーティングも廃止

ルーター技術は改善後に無料層へ**再投入予定**

Zoomのベンチマーク首位宣言と「コピー」批判

Humanity's Last Examで48.1%を記録し**歴代最高スコア**を主張

独自モデルを学習させず、OpenAI・Google・Anthropic APIを束ねた**フェデレーテッドAI**

Z-scorerで複数モデルの回答を評価・選択する「AIトラフィックコントローラー」

研究者から「他社の成果を横取りしている」と**強い批判**

一方でKaggle的アンサンブルとして「実践的に正しい手法」と**評価する声も**

顧客が本当に必要な通話文字起こし検索などの問題は未解決との指摘

エンタープライズAIに求められる「根拠」と信頼性

SAP Jouleはテラバイト規模の**企業内知識でRAGをグラウンディング**

コンサルタント認定試験で95%超を達成し実用精度を実証

導入企業のコンサルタントの**1日1.5時間を節約**、Wiproは700万時間を削減

リアルタイムインデックスで最新ドキュメントを即時反映

プロンプトインジェクション・ガードレール・GDPRに対応した**エンタープライズ級セキュリティ**

次フェーズは顧客固有の設計書・システムデータによる**二重グラウンディング**

詳細を見る

AI業界において、精度・速度・信頼性のトレードオフが改めて問われています。OpenAIはChatGPTのモデルルーターを無料・Goユーザーから撤廃しましたが、背景には推論モデルの高コストとユーザー離れという現実がありました。

モデルルーターは「最適なモデルを自動選択する」という魅力的な理念を持っていましたが、応答に最大数分を要する推論モデルへの自動振り分けが日常的なチャット体験の速度感と相容れず、ユーザー離れを招いたと見られています。

Zoomはベンチマーク「Humanity's Last Exam」でGoogle Gemini 3 Proを上回る48.1%を記録し、AI業界に驚きと議論を呼びました。ただしZoomは自社でモデルを学習させたわけではなく、OpenAI・Google・AnthropicのAPIを束ねたオーケストレーション基盤で結果を出しています。

この手法に対し、「他社の研究成果を横取りしている」という批判が研究者から噴出しました。一方で、複数モデルのアンサンブルはKaggleの勝利戦略と同種であり、実用的には理にかなっているという擁護論も出ています。

批判の核心は技術の是非ではなく、「モデルを開発した」という誤解を招く発表姿勢にあります。また、通話文字起こしの検索精度など実際のユーザー課題がベンチマーク追求の陰で放置されているという指摘も重要です。

エンタープライズ向けでは、SAPがJoule for Consultantsという形でグラウンディングAIの方向性を示しています。テラバイト規模の企業内知識とリアルタイムインデックスを組み合わせ、SAP認定試験で95%超の精度を維持しています。

SAP Jouleの特徴は、汎用LLMをそのまま使うのではなく、SAP固有の知識基盤・人間のコンサルタントが監修したゴールデンデータセット・厳格なセキュリティ層を重ねた点にあります。これにより、百万ドル規模の変革プロジェクトで求められる正確性を担保しています。

3つのニュースに共通するのは、AIの「見かけ上の性能」と「実務での信頼性」の乖離です。速さを求めて精度を落とすか、精度を求めて速さを犠牲にするか、あるいは他社モデルを束ねて帳尻を合わせるか——いずれのアプローチも一長一短があります。

エンタープライズAIの普及フェーズにおいては、ベンチマークのスコアよりも、根拠のある回答・透明性のある動作・データガバナンスへの信頼が差別化要因になりつつあることをこれら3件の記事は示唆しています。

今後、ユーザーの実体験がAI製品の評価軸として一層重要になると考えられます。OpenAIのルーター再投入やZoomのAI Companion 3.0のリリース、SAPの二重グラウンディング展開など、各社の次手が信頼性の証明になるかどうか注目されます。

出典：WIRED | VentureBeat | VentureBeat

AIが通信・教育・生命科学の現場を変える

2025年12月16日 OpenAI LangChain Replit 検索チャットボット GPT-5 ロボットコーディングバイブコーディングイタリアコンサルエージェントプロンプト LangSmith RAG ノーコード

LangGraphで実現した通信大手の顧客対応エージェント

Fastweb＋VodafoneがLangChain／LangGraphでAIエージェントを本番稼働

顧客向けSuper TOBiは約950万人に対応、正答率90%・解決率82%を達成

コールセンター向けSuper AgentはOne-Call解決率86%超に貢献

Neo4jナレッジグラフとRAGを組み合わせた手順主導のトラブル解決

LangSmithによる日次自動評価でモデル改善サイクルを継続運用

Supervisorパターンが意図ルーティングを決定論的に制御

AI支援で生命科学の実験効率を79倍に向上

OpenAIのGPT-5がHiFi DNA分子クローニング手順を自律最適化

RecA／gp32という新規酵素ペアを提案しRAPF-HiFi手法を発案

酵素アセンブリと形質転換の両最適化を合わせ79倍の効率改善を確認

ロボットシステムによる自律実験でヒト実験比89%の性能を実証

Replit Learnがコーディング不要の無料AI開発教育プラットフォームを開始

「バイブコーディング」の概念でAIとの反復的な試作学習を提供

詳細を見る

イタリアの通信大手Fastweb＋VodafoneはLangChainとLangGraphを基盤として、顧客向けチャットボット「Super TOBi」とコールセンター支援ツール「Super Agent」の2つのAIエージェントを本番環境に展開しました。約950万人の顧客に対応するSuper TOBiは正答率90%、解決率82%を達成しています。

Super Agentは、Neo4jに格納されたナレッジグラフとベクトルストアを組み合わせたハイブリッドRAGによって、コンサルタントへリアルタイムで最適な次のアクションを提示します。One-Call解決率は86%を超え、オペレーターの対応品質と一貫性が大幅に向上しました。

LangSmithを初日から導入した同社は、日次で自動評価パイプラインを稼働させ、チャットボット応答を分類・採点して継続的な改善フィードバックを生成しています。この仕組みにより、ビジネス担当者と技術チームが連携しながら目標品質水準を維持しています。

OpenAIはGPT-5を用いて湿式実験室における分子生物学のクローニング手順を自律最適化する実験を実施しました。固定プロンプトで人的介入なしに複数ラウンドの反復実験を行い、最終的に79倍の効率改善を達成したと報告しています。

特筆すべき発見はGPT-5が提案した新しい酵素メカニズムです。大腸菌由来の組換え酵素RecAとファージT4のgp32タンパク質を組み合わせたRAPF-HiFi手法は、DNA末端の安定化とホモロジー検索を促進し、既存のHiFi Gibsonクローニングより2.6倍の改善をもたらしました。

形質転換工程ではT7プロトコルがコンピテントセルの濃縮処理により36倍の改善を達成し、酵素と形質転換の両手法を組み合わせることで累計79倍という成果に至りました。これらの結果はAIが実際の実験室研究を意味ある形で支援できることを示しています。

一方でReplitはコーディング経験不要の無料教育プラットフォーム「Replit Learn」を公開しました。アプリの仕組み、LLMの基礎、バイブコーディングという3つのレッスンから構成されるAI Foundationsコースを提供し、誰でもAIを使ったアプリ開発を学べる環境を整えています。

これら3つの事例はいずれも、AIがドメイン固有の複雑な課題に対して実務レベルで機能し始めていることを示しています。通信の顧客対応、生命科学の実験最適化、そしてノーコードのソフトウェア教育という異なる領域で、エージェント型AIの実用化が着実に進んでいます。

出典：blog.langchain.com | blog.replit.com | OpenAI公式

Cohere、Rerank 4を発表

2025年12月11日検索カスタマーサービス推論リスクリスクモデルエージェントコンテキスト Cohere RAG

主要な技術改善

コンテキストウィンドウが4倍の32Kに

長文ドキュメントの処理が向上

セクション間の関連性を捕捉

ランキング精度が大幅改善

2つのバリアント

Fast：EC・CS向け高速モデル

Pro：深い推論・分析向け

エージェントのエラー削減に貢献

エンタープライズ検索の高度化

詳細を見る

Cohereが検索ランキングモデルの最新版「Rerank 4」を発表しました。前バージョンの3.5から約1年ぶりのアップデートで、コンテキストウィンドウが4倍の32Kに拡大されています。これにより長文ドキュメントの処理や複数パッセージの同時評価が可能になりました。

Rerank 4はFastとProの2つのバリアントで提供されます。Fastはeコマースやカスタマーサービスなど速度重視のユースケースに最適化され、Proはリスクモデル生成やデータ分析など深い推論と精度が求められるタスク向けに設計されています。

AIエージェントが複雑なタスクを遂行する際、正確な情報検索への依存度が高まっています。Rerank 4の改善されたランキング能力は、エージェントのエラーを削減し、エンタープライズRAGパイプラインの信頼性向上に大きく貢献します。

出典：VentureBeat

Google新指標で判明、最新AIも「事実性70%」の壁

2025年12月10日 Google Gemini 検索 GPT-5 エンジニア経営者リスク画像医療 RAG Google DeepMind

事実性を測る新指標FACTS

GoogleがAIの事実性評価指標を公開

内部知識と外部検索の両面で測定

医療や金融など高精度領域向け

企業導入への示唆

内部知識依存は避けRAG構築を推奨

画像解析の無人化は時期尚早

詳細を見る

Google DeepMindとKaggleは2025年12月10日、AIの事実性を測定する新指標「FACTS」を公開しました。これはモデルが生成する情報の正確さを、内部知識や検索能力など多角的に評価する枠組みです。最新のGemini 3 ProやGPT-5でさえ総合スコア70%に届かず、AIの完全な自動化には依然として高い壁がある現状が明らかになりました。

今回の結果は、企業におけるAI実装戦略に警鐘を鳴らすものです。特に、チャートや画像を解釈するマルチモーダルタスクの正答率が軒並み50%未満だった点は衝撃的です。金融データの自動読み取りなどを無人で運用するのは、現時点では時期尚早と言わざるを得ません。

一方で、エンジニアにとっての明確な指針も示されました。モデル自身の記憶に頼るよりも、検索ツールを併用させた方が正確性は高まるというデータです。これは社内データを参照させるRAG（検索拡張生成）システムの有効性を強く裏付けています。

経営者やリーダーは、モデル選定時に総合点だけでなく用途別のサブスコアを注視すべきです。例えば規定遵守が必須のサポート業務ならグラウンディングスコアを、調査業務なら検索スコアを重視するなど、目的に応じた最適なモデル選定が求められます。

結論として、AIモデルは進化を続けていますが、いまだ3回に1回は間違えるリスクを含んでいます。この「70%の事実性」という限界を理解した上で、人間による検証プロセスを組み込んだシステム設計を行うことが、ビジネスでの成功の鍵となります。

出典：VentureBeat

NYTがPerplexity提訴　記事無断利用と収益侵害を主張

2025年12月05日 OpenAI マイクロソフト Amazon Perplexity 検索広告コンテンツ著作権知的財産スタートアップ RAG

訴訟の核心と主張

NYTは著作権侵害でPerplexityを提訴

記事の逐語的コピーや要約提供を問題視

ペイウォール回避による収益機会の損失を主張

双方の戦略と対立構造

訴訟は有利なライセンス契約への交渉手段

Perplexityは技術革新への不当な抵抗と反論

NYTはAmazonとは契約締結済みで使い分け

業界への波及と今後

シカゴ・トリビューン紙なども同様に提訴

AI学習とフェアユースの境界線が焦点

詳細を見る

アメリカの有力紙ニューヨーク・タイムズは12月5日、AI検索スタートアップのPerplexityを著作権侵害で提訴しました。同紙は、Perplexityが許可なく記事を大量に学習・加工し、自社製品を通じて読者に提供することで、本来得られるはずの購読料や広告収益を不当に侵害していると主張しています。

訴状では、Perplexityの検索拡張生成（RAG）技術が、ウェブ上の情報を収集して回答を生成する過程で、ペイウォールで保護されたコンテンツを不正に取得していると指摘しています。生成される回答は元の記事の「逐語的なコピー」や詳細な要約であることが多く、ユーザーが元記事にアクセスする必要性をなくす「代替品」として機能している点を強く非難しています。

この訴訟は、AI企業に対してコンテンツ使用の対価を認めさせるための「交渉戦略」の一環である可能性が高いです。実際、ニューヨーク・タイムズはAmazonとはライセンス契約を締結済みであり、AI技術そのものを否定しているわけではありません。あくまで「ただ乗り」を許さず、知的財産に対する適正な対価と収益モデルの確立を求めています。

一方のPerplexity側は、こうした訴訟を「新しい技術に対する既存メディアの古い抵抗」と位置づけ、ラジオやテレビの登場時と同様に法的根拠がないと反論しています。しかし、同様の訴訟はOpenAIやマイクロソフトに対しても起こされており、生成AIと著作権を巡る法的な境界線がどこに引かれるか、今後のビジネスモデルを左右する重要な局面を迎えています。

出典：TechCrunch | The Verge

LLMの忘却を防ぐ新記憶構造GAM、コストと精度を両立

2025年12月04日検索 GPT-4 エンジニア中国コンテキスト RAG

ウィンドウ拡大競争の限界

詳細を忘れる「コンテキスト腐敗」がAIの課題

窓拡大はコスト増と精度低下を招き持続不能

「記憶」と「検索」の分離

全履歴を保存し、必要な瞬間に文脈を再構築

記憶と検索に役割を分けるデュアル構造を採用

既存手法を凌駕する性能

長文理解でGPT-4o等を凌ぐ90%超の精度

モデル巨大化より「記憶の構造化」が実用の鍵

詳細を見る

中国・香港の研究チームが、AIの長期記憶における「コンテキスト腐敗」を解決する新アーキテクチャ「GAM」を発表しました。従来のLLMが抱える情報の忘却問題を、モデル拡大ではなく構造の工夫で解決する画期的なアプローチです。

現在のAI開発はコンテキストウィンドウの拡大競争にありますが、これには限界があります。膨大なトークン処理はコスト増大に加え、重要情報が埋もれて精度低下や遅延を招くためです。単に入力枠を広げるだけでは、実用的な記憶能力は得られません。

GAMはこの課題に対し、機能を「記憶（Memorizer）」と「調査（Researcher）」に分離しました。Memorizerは全対話を要約せず構造化して保存し、情報の欠落を防ぎます。一方、Researcherは必要な時、必要な情報だけを能動的に検索して回答を生成します。

ソフトウェア開発の「JITコンパイラ」のように、GAMは事前に情報を圧縮せず、要求された瞬間に最適なコンテキストを組み立てます。これにより、長期プロジェクトや複雑なタスクでも、AIは過去の経緯を正確に維持し続けることが可能です。

性能評価でGAMは、既存のRAGやロングコンテキストモデルを凌駕しました。特に長期間の文脈追跡を要するテストでは90%超の精度を記録し、要約による情報損失が起きやすい従来手法に対し、圧倒的な優位性を示しています。

今後のAI開発では、モデルの巨大化より「記憶システムの設計」が重要になります。情報をどう保存し取り出すかという「コンテキストエンジニアリング」への移行が、AIを信頼性の高いビジネスツールへ進化させる鍵となるでしょう。

出典：VentureBeat

複雑実務に挑むAI学習基盤「Agent-R1」がRAGを凌駕

2025年11月28日 DeepSeek 生産性検索数学推論強化学習コーディング中国エージェント GRPO RAG

数学・コードから「現実世界」へ

従来の強化学習は正解のある問題に特化

現実の業務は曖昧で動的な対応が必要

新手法は対話履歴と環境を全学習

中間評価で「過程」を磨く

最終結果だけでなく中間プロセスも評価

スパース報酬問題を解消し学習効率化

ツール実行と状況解釈を分離管理

既存手法を凌駕する実力

多段階推論で従来のRAGを圧倒

DeepSeek系アルゴリズムで最高性能

企業利用の自動化レベルを向上

詳細を見る

中国科学技術大学の研究チームが、複雑な実務タスクに対応可能なLLMエージェント用強化学習フレームワーク「Agent-R1」を開発しました。従来の数学やコーディングといった明確な領域を超え、曖昧さを含む現実世界の課題解決能力を大幅に向上させます。

これまでの強化学習は、正解が明確なタスクで威力を発揮してきましたが、変化し続けるビジネス環境や予測不能なフィードバックへの対応は苦手でした。エージェントが自律的にツールを使いこなし、複雑な工程を完遂するには、学習モデルの根本的な再定義が必要だったのです。

研究チームは「マルコフ決定過程」を拡張し、過去の対話履歴や環境反応を含めた学習を可能にしました。特筆すべきは、最終結果だけでなく中間の工程を評価する「プロセス報酬」の導入です。これにより、エージェントは正解に至るまでの「過程の良し悪し」を学習し、効率的にスキルを習得します。

Agent-R1は、行動を実行する「Tool」と、その結果を解釈する「ToolEnv」という2つのモジュールで構成されます。単にAPIを叩くだけでなく、その結果がタスク全体の進捗にどう意味を持つかを理解させることで、マルチターンの複雑な対話を制御します。

検証の結果、この手法で訓練されたエージェントは、従来のRAG（検索拡張生成）や基本的なツール利用モデルを大きく上回る性能を示しました。特にDeepSeek-R1などで採用されるアルゴリズム「GRPO」との相性が良く、企業の生産性を高める次世代エージェント開発の基盤として期待されています。

出典：VentureBeat

ベクトルDBの熱狂は終焉、次世代検索GraphRAGへ

2025年11月16日検索エンジニアインフラ投資ベンチマーク RAG

ベクトルDBが直面した現実

95%の企業で投資対効果ゼロ

代表格Pineconeの失速と売却検討

単独利用の限界と精度の課題

市場の急速なコモディティ化

次世代検索の新たな潮流

キーワード併用が標準に

新技術GraphRAGの台頭

検索精度が劇的に向上

真の価値はリトリーバルスタックに

詳細を見る

2024年に生成AIの必須インフラとして注目されたベクトルデータベースが、2年後の今、成熟期を迎えています。多くの企業が投資対効果を得られずにいる中、ベクトルとナレッジグラフを融合させた新技術「GraphRAG」が、検索精度を劇的に向上させる次世代の標準として台頭し始めました。これは、単なる技術の流行り廃りではなく、検索アーキテクチャの進化を意味します。

ベクトルDBはなぜ期待外れに終わったのでしょうか。ブームの象徴だった米Pinecone社は、ユニコーン企業となることなく売却を検討中と報じられています。オープンソース製品との価格競争や、既存データベースがベクトル検索機能を標準搭載したことで、差別化が困難になったのが大きな要因です。多くの企業にとって、既存の仕組みで十分なケースが増えたのです。

技術的な限界も明らかになりました。ベクトル検索は意味の近さで情報を探すため、「エラー221」を検索して「エラー222」が返るなど、業務利用に耐えうる正確性に欠ける場面がありました。この課題を補うため、多くの現場ではキーワード検索などを併用する「ハイブリッド検索」が標準的な手法となり、ベクトルDB単体で完結するという当初の夢は実現しませんでした。

こうした中、新たな解決策として「GraphRAG」が急速に注目を集めています。これは、ベクトルが持つ「意味の近さ」に、データ間の「関係性」を構造化するナレッジグラフを組み合わせる技術です。これにより、単語の類似性を超えた、より文脈に即した正確な情報検索が可能になり、複雑な問いにも答えられるようになります。

GraphRAGの効果は、複数のベンチマークで実証済みです。ある調査では、従来の検索手法で正答率が約50%だったものが、GraphRAGの導入で80%以上に向上したとの報告もあります。特に構造化されたデータ領域では、ベクトル検索を最大で3.4倍上回る性能を示した例もあり、その優位性は明らかです。

結論として、ベクトルデータベースは万能薬ではありませんでした。しかし、検索技術の進化における重要な一歩であったことは確かです。今後の競争力の源泉は、単一の技術ではなく、ベクトル、グラフ、キーワード検索などを統合した「リトリーバルスタック」全体を設計・運用する能力になるでしょう。「リトリーバルエンジニアリング」という新たな専門分野の確立も目前に迫っています。

出典：VentureBeat

エージェントAI、視覚データを「意味」ある資産へ

2025年11月13日 NVIDIA 検索エンジニア推論インフラエネルギーコンテンツ画像動画エージェント RAG

視覚AI、エージェントで次世代へ

従来型CVの「なぜ」の限界

VLMが文脈理解の鍵

検索・分析・推論を自動化

ビジネス変革をもたらす具体例

車両検査で欠陥検知率96%達成

インフラ点検レポートを自動作成

スポンサー価値をリアルタイムで測定

スマートシティの誤報を削減

詳細を見る

米NVIDIAは、エージェントAIを活用して従来のコンピュータビジョン（CV）を革新する3つの方法を発表しました。既存のCVシステムでは困難だった「なぜそれが重要か」という文脈理解や将来予測を可能にし、企業が保有する膨大な視覚データをビジネスの洞察に変えるのが狙いです。中核技術は、視覚と言語をつなぐビジョン言語モデル（VLM）。これにより、視覚情報の価値を最大化する道が開かれようとしています。

従来のCVシステムは、特定の物体や異常を検知することには長けていますが、「何が起きているか」を説明し、その重要性を判断する能力に欠けていました。このため、映像データの分析は依然として人手に頼る部分が多く、時間とコストがかかるという課題がありました。エージェントAIは、この「認識」と「理解」の間のギャップを埋める役割を担います。

第一のアプローチは「高密度キャプション」による検索性の向上です。VLMを用いて画像や動画に詳細な説明文を自動生成することで、非構造化データだった映像コンテンツが、豊かなメタデータを持つ検索可能な資産に変わります。これにより、ファイル名や基本タグに依存しない、より柔軟で高精度なビジュアル検索が実現可能になります。

この技術はすでに実用化されています。例えば、車両検査システムを手掛けるUVeye社は、VLMで膨大な画像を構造化レポートに変換し、欠陥検知率を人手作業の24%から96%へと飛躍させました。また、スポーツマーケティング分析のRelo Metrics社は、ロゴの露出に文脈情報を加え、スポンサー価値をリアルタイムで算出することに成功しています。

第二のアプローチは、既存システムのアラート強化です。多くのCVシステムが出す「はい/いいえ」式の単純なアラートに、VLMが「どこで、なぜ、どのように」といった文脈を付与します。スマートシティ分野でLinker Vision社は、この技術で交通事故や災害などのアラートを検証し、誤検知を減らすと共に、各事象への迅速で的確な対応を支援しています。

そして第三に、複雑なシナリオの「AI推論」が挙げられます。エージェントAIシステムは、複数の映像やセンサーデータを横断的に処理・推論し、根本原因の分析や長時間の点検映像からのレポート自動生成といった高度なタスクを実行します。これは、単一のVLMだけでなく、大規模言語モデル（LLM）や検索拡張生成（RAG）などを組み合わせたアーキテクチャによって実現されます。

Levatas社は、このAI推論を活用し、電力インフラなどの点検映像を自動レビューするAIエージェントを開発しました。従来は手作業で数週間かかっていたレポート作成プロセスを劇的に短縮し、インフラの安全性と信頼性の向上に貢献しています。このように、エージェントAIは、企業のオペレーションを根底から変える力を持っています。

NVIDIAは、開発者がこれらの高度な機能を実装できるよう、各種VLMモデルや開発プラットフォームを提供しています。エージェントAIの導入は、企業が日々蓄積する視覚データを単なる記録から、戦略的な意思決定を支える「生きたインテリジェンス」へと昇華させる重要な一歩となるでしょう。

出典：NVIDIA公式

Google、GeminiにRAG統合複雑な開発を不要に

2025年11月06日 Google OpenAI Gemini AWS 生産性検索アシスタントエンジニア専門家経営者インフラ RAG

File Searchの主な特徴

複雑なRAGパイプラインを完全自動化

ストレージや埋め込み生成は実質無料

最新モデルによる高精度なベクトル検索

回答の根拠を示す引用機能を内蔵

開発者・企業への提供価値

開発工数と運用コストを大幅削減

PDFやDOCXなど多様なファイルに対応

競合よりシンプルな統合体験を提供

数時間かかった作業が数秒に短縮した事例も

詳細を見る

Googleは、同社の生成AI「Gemini」のAPIに、フルマネージドの検索拡張生成（RAG）システム「File Search Tool」を統合したと発表しました。この新機能は、企業が自社データに基づいた高精度なAIを開発する際に直面する、複雑なRAGパイプラインの構築・管理作業を完全に自動化します。これにより、開発者はインフラ構築から解放され、アプリケーション開発に集中できるようになります。

従来、RAGシステムを構築するには、ファイルストレージの準備、適切なチャンキング（分割）戦略の策定、埋め込みモデルの選定、ベクトルデータベースの契約と管理など、専門的な知識と多大な工数が必要でした。File Searchは、これら一連の複雑なプロセスをすべて抽象化し、開発者にシンプルな統合体験を提供します。

このツールは、Googleの最新かつ最高性能を誇る「Gemini Embedding model」を搭載しています。ベクトル検索技術を用いて、ユーザーの質問の意図や文脈を深く理解し、関連文書から的確な情報を抽出します。さらに、生成された回答には自動で引用元が付与されるため、情報の検証が容易になり、AIの信頼性向上にも貢献します。

特に注目すべきは、その画期的な料金体系です。クエリ（検索）実行時のストレージ利用と埋め込み生成は無料とし、課金はファイルを初めてインデックスする際の埋め込み作成時に限定されます。これにより、RAGの導入・運用コストが大幅に削減され、あらゆる規模の企業が利用しやすくなっています。

OpenAIやAWSといった競合他社も同様のRAG支援ツールを提供していますが、多くの専門家はGoogleのFile SearchがRAGパイプラインの「一部」ではなく「すべて」を抽象化する点で一線を画すと指摘しています。これにより、開発者はより少ない労力で、高性能なRAGアプリケーションを迅速に市場投入できる可能性があります。

先行導入したAIゲーム生成プラットフォーム「Beam」では、既に大きな成果を上げています。数千に及ぶテンプレートデータの中から必要な情報を瞬時に検索し、これまで数時間を要していたプロトタイピングが数分で完了するようになったと報告されており、生産性向上の好例と言えるでしょう。

File Searchの登場は、高精度な社内ナレッジアシスタントやインテリジェントな顧客サポートボットなど、企業のデータ活用を前提としたAIアプリケーション開発のハードルを大きく下げるものです。自社の競争力強化を目指す経営者や開発者にとって、見逃せない選択肢となりそうです。

出典：Google公式 | VentureBeat

自律型AI導入、コンテキストエンジニアリングが鍵

2025年10月29日デロイト生産性検索 AI導入業務効率エンジニア専門家エージェントプロンプトコンテキスト RAG

自律型AIの課題と未来

信頼性の高い応答にコンテキストが必須

企業データは様々な場所に散在

2026年までに大企業の6割が導入予測

Elasticが示す解決策

新手法コンテキストエンジニアリング

AIに必要なデータとツールを提供

新機能Agent Builderで開発を簡素化

専門知識不要でAIエージェント構築

詳細を見る

自律的に思考し業務を遂行する「自律型AI」の導入が企業で加速する中、その信頼性を担保する鍵として「コンテキストエンジニアリング」が注目されています。検索・分析プラットフォーム大手のElastic社は、企業の散在するデータをAIに的確に与えるこの技術が不可欠だと指摘。同社が提供する新機能「Agent Builder」は、専門家でなくとも自社のデータに基づいた高精度なAIエージェントの構築を可能にします。

自律型AIの性能は、与えられるコンテキストの質に大きく依存します。しかし多くの企業では、必要なデータが文書、メール、業務アプリなどに散在しており、AIに一貫したコンテキストを提供することが困難です。Elastic社の最高製品責任者ケン・エクスナー氏は、この「関連性」の問題こそが、AIアプリケーション開発でつまずく最大の原因だと指摘しています。

市場は急速な拡大期を迎えています。調査会社Deloitteは、2026年までに大企業の60%以上が自律型AIを本格導入すると予測。またGartnerは、同年末までに全企業向けアプリの40%がタスク特化型エージェントを組み込むと見ています。競争優位性の確保や業務効率化に向け、各社は実験段階から本格的な実装へと舵を切っており、導入競争は待ったなしの状況です。

この課題を解決するのが、適切なコンテキストを適切なタイミングでAIに提供する「コンテキストエンジニアリング」です。これは、AIが正確な応答をするために必要なデータを提供するだけでなく、そのデータを見つけて利用するためのツールやAPIをAI自身が理解する手助けをします。プロンプトエンジニアリングやRAG（検索拡張生成）から一歩進んだ手法として注目されています。

Elastic社はこの潮流に対応し、Elasticsearchプラットフォーム内に新機能「Agent Builder」を技術プレビューとして公開しました。これは、AIエージェントの開発から実行、監視までライフサイクル全体を簡素化するものです。ユーザーは自社のプライベートデータを用いてツールを構築し、LLMと組み合わせて独自のAIエージェントを容易に作成できます。

コンテキストエンジニアリングは、高度な専門知識がなくとも実践できる一方、その効果を最大化するには技術と経験が求められ、新たな専門分野として確立されつつあります。今後はLLMが訓練データに含まれない企業固有のデータを理解するための新しい技術が次々と登場し、AIによる自動化と生産性向上をさらに加速させると期待されています。

出典：VentureBeat

Vertex AI強化、独自AIモデル開発をGoogleが支援

2025年10月27日 Google Gemini AWS 検索ファインチューニング半導体 GPU ハードウェア RAG

新サービス「Vertex AI Training」

企業独自の大規模モデル開発

マネージドSlurm環境を提供

数百〜数千チップの長期ジョブ

ハードウェア障害から自動復旧

競合との差別化と提供価値

AWS、CoreWeaveに対抗

多様なチップへのアクセス

Gemini開発の専門知識を活用

GPU調達の課題を解決

詳細を見る

Google Cloudが、企業による独自の大規模AIモデル開発を支援する新サービス「Vertex AI Training」を発表しました。AWSや専門プロバイダーのCoreWeaveなどに対抗するもので、マネージドSlurm環境を提供し、大規模な計算資源へのアクセスを容易にします。

このサービスは、単純なファインチューニングやRAG（検索拡張生成）の利用者を対象としていません。ゼロからモデルを構築したり、大幅なカスタマイズをしたりする、数百から数千のチップを要する大規模なトレーニングジョブに焦点を当てています。

最大の特徴は、マネージドSlurm環境にあります。これにより、ジョブのスケジューリングやハードウェア障害発生時の自動復旧が実現します。ダウンタイムを最小限に抑え、大規模クラスタでの効率的なトレーニングを可能にするのです。

なぜ今、このようなサービスが求められるのでしょうか。背景には、企業がモデル開発に必要なGPUを確保する際の熾烈な競争があります。Vertex AI Trainingは、単なる計算資源のレンタルではなく、包括的な開発環境を提供することで競合との差別化を図ります。

Googleは、多様なチップへのアクセスや、自社のGeminiモデル開発で培った専門知識も提供価値として挙げています。既にシンガポールのAI Singaporeなどが早期顧客として名を連ねており、専門的なモデル開発の需要の高まりを示しています。

出典：VentureBeat

Mistral、企業向けAI開発・運用基盤を発表

AI開発の本番運用を支援

試作から本番運用への移行を促進

EU拠点のインフラでデータ主権を確保

専門家以外も使える開発ツール

統合プラットフォームの3本柱

システムの振る舞いを可視化する可観測性

RAGも支える実行ランタイム

AI資産を一元管理するAIレジストリ

豊富なモデルと柔軟な展開

オープンソースから商用まで多数のモデル

クラウドやオンプレミスなど柔軟な展開

詳細を見る

2025年10月24日、フランスのAIスタートアップ Mistral AIは、企業がAIアプリケーションを大規模に開発・運用するための新プラットフォーム「Mistral AI Studio」を発表しました。多くのAI開発が試作段階で止まってしまう課題を解決し、信頼性の高い本番システムへの移行を支援することが目的です。Googleなど米国勢に対抗する欧州発の選択肢としても注目されます。

同社はAI Studioを、AI開発における「プロダクションファビリック（生産基盤）」と位置付けています。AIモデルのバージョン管理や性能低下の追跡、コンプライアンス確保など、多くのチームが直面するインフラ面の課題解決を目指します。これにより、アイデアの検証から信頼できるシステム運用までのギャップを埋めます。

プラットフォームは3つの柱で構成されます。AIシステムの振る舞いを可視化する「可観測性」、検索拡張生成（RAG）なども支える実行基盤「エージェントランタイム」、そしてAI資産を一元管理する「AIレジストリ」です。これらが連携し、開発から監視、統制まで一貫した運用ループを実現します。

AI Studioの強みは、オープンソースから高性能な商用モデル、さらには画像生成や音声認識モデルまでを網羅した広範なモデルカタログです。これにより企業は、タスクの複雑さやコスト目標に応じて最適なモデルを試し、柔軟に構成を組むことが可能になります。選択肢の多さは開発の自由度を高めます。

Pythonコードを実行する「コードインタプリタ」やWeb検索など、多彩な統合ツールも特徴です。これにより、単なるテキスト生成にとどまらず、データ分析やリアルタイムの情報検索、さらには画像生成までを一つのワークフロー内で完結させる、より高度なAIエージェントの構築が可能になります。

導入形態も柔軟です。クラウド経由での利用に加え、自社インフラに展開するオンプレミスやセルフホストにも対応。企業のデータガバナンス要件に応じて最適な環境を選べます。また、不適切なコンテンツをフィルタリングするガードレール機能も備え、安全なAI運用を支援します。

Mistral AI Studioの登場は、企業におけるAI活用の成熟度が新たな段階に入ったことを示唆します。モデルの性能競争から、いかにAIを安全かつ安定的に事業へ組み込むかという運用フェーズへ。同プラットフォームは、その移行を力強く後押しする存在となるでしょう。

出典：VentureBeat

ウィキデータ、AI開発支援へベクトルDB公開

2025年10月01日検索エコシステムエンジニアリスク著作権ドイツ RAG

AI向け新データベース公開

ウィキメディア・ドイツ協会が主導

Jina.AI、DataStaxと協業

構造化データをベクトル化

RAGシステムとの連携を強化

高品質データでAI開発を革新

AIモデルの精度向上に貢献

大手以外の開発者にも機会を提供

著作権リスクの低いデータソース

ニッチな情報のAIへの反映を促進

詳細を見る

ウィキメディア・ドイツ協会は10月1日、AI開発者向けにWikipediaの構造化データ「Wikidata」へのアクセスを容易にする新プロジェクトを発表しました。この「Wikidata Embedding Project」は、1億件以上のデータをベクトル化し、AIモデルが文脈を理解しやすくするものです。AI開発の精度向上と民主化を目指します。

プロジェクトの核となるのは、ベクトルベースのセマンティック検索です。単語や概念を数値ベクトルに変換することで、AIはキーワードの一致だけでなく、意味的な関連性も捉えられます。特に、外部情報を参照して回答精度を高めるRAG（Retrieval-Augmented Generation）システムとの連携が大幅に向上します。

従来のWikidataは、専門的なクエリ言語「SPARQL」やキーワード検索が中心で、AIモデルが直接活用するには障壁がありました。今回の新データベースは、自然言語での問い合わせにも対応し、開発者がより直感的に、かつ文脈に沿った情報を引き出すことを可能にします。

AI業界では、信頼性の高い学習データへの需要が急騰しています。このプロジェクトは、Web全体から情報を収集するデータとは一線を画し、編集者によって検証された高品質な知識を提供。大手テック企業以外の開発者にも公平な競争環境をもたらすことが期待されます。

プロジェクト責任者は「強力なAIは一握りの企業に支配される必要はない」と述べ、その独立性を強調しています。この取り組みは、オープンで協調的なAIエコシステムの構築に向けた重要な一歩と言えるでしょう。データベースはすでに公開されており、開発者からのフィードバックを元に更新が予定されています。

出典：TechCrunch | The Verge

Verisk、生成AIで保険データ分析を改革。顧客の作業時間を「数日→数分」に短縮

2025年09月16日 Anthropic Amazon Claude 生産性検索 Sonnet コンテンツコンプライアンス RAG

導入前の主要課題

大量データの手動ダウンロードと照合が必要

差分分析に数時間から数日かかる非効率性

顧客サポートの対応時間が15%も浪費

テストケース分析に3〜4時間費やしていた

GenAIソリューションの核心

Amazon BedrockとClaude 3.5 Sonnetを活用

自然言語で質問可能な会話型UIを導入

RAGとベクトルDBで動的なコンテンツ検索を実現

Bedrock Guardrailsでコンプライアンスを確保

ビジネスインパクト

分析時間を数日から数分へ劇的短縮

手作業不要の自動差分分析が可能に

顧客の意思決定と生産性が向上

サポート負担軽減とオンボーディング効率化

詳細を見る

保険業界向けデータ分析サービス大手のVeriskは、Amazon BedrockとAnthropicのClaude 3.5 Sonnetを活用し、保険会社が抱えるISO格付け変更情報へのアクセス非効率性を劇的に改善しました。生成AIとRAG（検索拡張生成）技術を組み合わせた「Verisk Rating Insights」により、従来数日を要していた複雑なデータ分析がわずか数分で完了できるようになり、顧客の生産性と収益性を大きく高めています。

従来、保険会社がISO格付けコンテンツの変更点を把握するには、パッケージ全体を手動でダウンロードし、複数のバージョン間の差分を手作業で比較する必要がありました。この非効率な作業は、顧客側の分析にテストケースあたり3〜4時間を費やさせ、重要な意思決定を遅らせていました。また、Veriskの顧客サポートチームも、これらの非効率性に起因する問い合わせ対応に週15%もの時間を割かざるを得ませんでした。

Veriskは、この課題を解決するため、Amazon Bedrock上のAnthropic Claude 3.5 Sonnetを核とした会話型インターフェースを開発しました。ユーザーは自然言語で「直近2つの申請におけるカバレッジ範囲の変更点は何か？」といったクエリを入力するだけで、システムが即座に関連情報を要約して返答します。

この高精度な応答を可能にしたのが、RAGとAmazon OpenSearch Service（ベクトルデータベース）の組み合わせです。RAG技術により、LLMは巨大なデータからユーザーの質問に特化した関連性の高い情報チャンクのみを動的に検索・取得し、ファイル全体をダウンロードする手間を完全に排除しました。

生成AIソリューションの導入効果は明らかです。顧客側は分析時間が劇的に短縮されたことで、データ検索ではなく価値創造的な意思決定に集中できるようになりました。また、Verisk側では、ユーザーがセルフサービスで解決できるようになった結果、顧客サポートの負担が大幅に軽減され、サポートリソースをより複雑な問題に集中させることが可能になりました。

Veriskは、新しい生成AIソリューションの信頼性を確保するため、Amazon Bedrock Guardrailsによるコンプライアンス管理と独自のガバナンス体制を構築しました。今後は、この基盤を活かし、さらなるクエリ範囲の拡張や、他の製品ラインへのソリューションの横展開・大規模化を進める計画です。

出典：AWS公式

RAG（LLM技術）に関するニュース一覧

RAG（LLM技術）に関するニュース一覧

深刻化する攻撃

拡大する攻撃面

消費者向け改善

開発者とAPI

新GPUインスタンス

検索と学習の強化

OCR 4の中身

戦略と背景

実証では露呈しない欠陥

データ配信層の構築

3階層のモデル

性能と展開

講座の中身

ねらいと修了特典

解析を捨てる手法

性能とコスト

技術の中身

精度と実用性

試行錯誤と失敗の過程

方針転換と得られた教訓

二層構造の設計思想

企業導入の課題

Microsoft IQの統合基盤

Rayfinの役割と競合環境

基盤モデルへの転換

大手金融の採用状況

エコシステムの整備

モデルの特徴

想定用途

MeMoの仕組み

RAGとの比較と限界

AI特有の負債4類型

組織的な対策

DCIの仕組みと背景

性能とコスト効果

実用上の制約と展望

delta-memの仕組み

性能と効率の両立

実用化の方向性

RAGの限界と課題

意思決定文脈グラフの仕組み

企業導入への展望

開発者支援の拡充

責任あるAIへの取り組み

フルスタック基盤の強化

主な変更点

開発者への影響

ベクトル検索の限界

ハイブリッド検索の設計

本番運用の課題と判断基準

小型モデルの性能躍進

実用性重視の設計思想

311Mモデルの総合力

Alchemyの仕組み

既存手法との違い

導入効果と課題

ベンチマークが暴く実態

破損の特徴と対策

委任作業の落とし穴

破局的失敗の構造

基礎用語の定義

最新トレンド用語

技術手法の解説

システム構成と技術基盤

MI300Xでの学習成果

3つの新機能の概要

企業への影響

導入判断の分岐点

マルチモーダルRAGの実現

精度と信頼性の強化

Nexusの技術構成

RAGの限界と市場動向

企業導入への示唆

足場レイヤーの崩壊

コンテキストが新たな堀

検索アーキテクチャの転換

評価基準の高度化

埋め込みモデルの構造的限界