トランスフォーマーに関する最新ニュース（73件） | 【AI Times】生成AIやLLMの最新情報・ニュース

NVIDIA、MoE学習を最大3.7倍高速化

2026年06月24日 NVIDIA Qwen 専門家推論ファインチューニングパッチ GPU トランスフォーマー Hugging Face

発表の要点

import1行で3.4〜3.7倍高速化

GPUメモリ最大32%削減

Transformers v5を土台に拡張

HF互換APIで既存コード不変

技術と適用範囲

Expert Parallelismで専門家を分散

DeepEPが通信と計算を融合

550Bモデルの全層調整も実現

詳細を見る

NVIDIAは6月24日、HuggingFace Transformersの上に構築するオープンライブラリ「NeMo AutoModel」を公開しました。import文を1行変えるだけで、MoE（混合専門家）モデルのファインチューニングをTransformers v5比で3.4〜3.7倍高速化し、GPUメモリを29〜32%削減します。from_pretrained()など既存APIはそのまま使え、コード改変は不要です。

MoEモデルの学習には固有の難しさがあります。数百の専門家へトークンを振り分け、行列積を一つのカーネルに融合し、重みをGPU間で分割し、通信と計算を重ね合わせる処理が必要だからです。Transformers v5は専門家バックエンドや動的な重み読み込みでこれに対応しましたが、通信と計算を重ねるDeepEPは未実装でした。

NeMo AutoModelはこの欠けた部分を補います。AutoModelForCausalLMを継承し、Expert Parallelism（EP）、DeepEPによる全対全ディスパッチ、TransformerEngineカーネルを追加しました。EPは専門家の重みをGPU間で物理的に分割し、8GPUなら各GPUが専門家の8分の1だけを保持します。これにより、従来は約55GiB必要だった専門家の重みが1GPUあたり約6.8GiBに収まります。

性能評価は2つの規模で実施されました。8GPU単一ノードのQwen3-30B-A3Bでは、v5比でスループットが3.69倍、ピークメモリは29%減。Nemotron 3 Nano 30Bでも3.36倍、メモリ32%減を記録しました。高速化の源はEPによるメモリ削減、DeepEPの通信融合、TransformerEngineの最適化カーネルの3点です。

大規模側では、550BパラメータのNemotron 3 Ultraの全層ファインチューニングを16ノード128GPUで実行しました。Transformers v5はこの規模でメモリ不足になり動作しませんが、EPが専門家を分散することで学習が可能になります。EPが本領を発揮するのは、まさにこの大規模領域です。

NeMo AutoModelの出力は標準的なHF形式のsafetensorsであるため、save_pretrained()で保存した重みはvLLMやSGLangといった推論基盤にそのまま載せられます。NVIDIAは、Transformers v5を使うユーザーにとって本ライブラリが摩擦のない次の一歩になると位置づけています。

出典：Hugging Face

ブラウザのAIモデル重複保存を解消する新API提案

2026年06月23日ネットワークエンジニアセキュリティプライバシートランスフォーマー Hugging Face

課題

オリジン分離でキャッシュ非共有

同一モデルの重複ダウンロード

Wasm実行環境の二重保存

ディスク容量と通信の浪費

提案するAPI

ハッシュでファイル識別

navigator.crossOriginStorage導入

オリジン横断の単一キャッシュ

書き込み時のハッシュ検証

詳細を見る

Hugging Faceは2026年6月23日、ブラウザ向けAIライブラリTransformers.jsで提案中のCross-Origin Storage（COS）APIを試した結果をブログで公開しました。COSは、複数のサイト間でAIモデルやWebAssemblyの実行環境を重複なく共有することを狙う初期段階の仕様提案です。

問題の背景は、ブラウザのキャッシュがオリジンごとに分離されている点にあります。同じモデルでも別ドメインのアプリを開くと再ダウンロードが必要で、記事の例では177MBもの重複ダウンロードと保存が発生します。これはセキュリティとプライバシー保護のため、キャッシュをサイト単位で隔離している設計に由来します。

さらに、利用するモデルが異なるアプリ同士でも、土台となるONNX Runtimeの共通Wasmファイルを別々に取得・保存してしまいます。最終的なCDNのURLが同一でも、ネットワーク分離キーが一致しないためキャッシュは再利用されません。

COSは、ファイルをURLやオリジンではなく暗号学的ハッシュで識別する仕組みです。navigator.crossOriginStorageというインターフェースを通じ、ハッシュが一致すれば取得元を問わず同一ファイルとして認識し、一度の保存を全サイトで使い回せます。

公開範囲は開発者が制御できます。AIモデルやWasmのように広く共有したい資源はすべてのオリジンに開放し、社内専用モデルは特定オリジンに限定できます。可視性は拡大はできても縮小はできないため、公開資源を悪意ある第三者が制限し直す攻撃を防ぎます。

加えてCOSは書き込み時にハッシュを検証するため、宣言と異なるデータは保存に失敗します。これによりモデルの重みが正しいバイト列かを自動で整合性確認でき、公式CDNでも有志のミラーでも信頼して利用できる点が利点です。

出典：Hugging Face

Krea、画像生成AIを2秒のオープンウェイト公開

2026年06月23日画像生成オープンウェイト事後学習著作権画像ブランド MIT トランスフォーマー Hugging Face Canva LoRA

公開モデルの概要

Krea 2のオープンウェイト公開

学習用のRawと高速版Turbo

2秒での画像生成

120億パラメータの新設計

ライセンス条件

50席超は有償の企業契約

違法画像防止の技術対策を義務化

生成物の著作権は利用者

詳細を見る

AI創作ツール新興企業のKreaは6月、新たな画像生成AI「Krea 2」のオープンウェイト版を公開しました。学習向けの「Krea 2 Raw」と高速生成向けの「Krea 2 Turbo」の2種で、いずれもHugging Faceから誰でもダウンロードできます。同社はAI画像が画一的になりがちな課題を踏まえ、表現の多様性と高い指示再現性の両立を掲げます。

技術的な中核は、ゼロから構築した120億パラメータの拡散トランスフォーマーです。Turboは知識蒸留により生成工程を8ステップまで圧縮し、一般的な消費者向けハードでも2K解像度の画像を約2秒で描き出します。一方のRawは事後学習や人間のフィードバックによる調整を施さない素の状態で、独自スタイルの追加学習に向く「白紙のキャンバス」と位置づけられています。

想定される使い方は「Rawで学習し、Turboで生成する」という流れです。Rawは作り込まれた作風の偏りがないため、建築製図や特定ブランドの素材といった独自表現を高い忠実度で吸収できます。学習したLoRAはそのままTurboへ移植でき、高速な試作と反復に活用できる仕組みです。

ライセンスは独自の「Krea 2 コミュニティライセンス契約」を採用しました。個人や小規模事業者は無償で商用利用や成果物の収益化ができ、Kreaは生成物の著作権を主張しないと明記しています。一方で席数が50を超える組織は企業向けの有償契約が必要となり、APIの利用も生成ごとに課金される別建てのサービスです。

従来のMITやApache 2.0と異なり、この契約には下流の行動規範が課されています。モデルを自社運用する事業者は、違法素材や同意なき性的画像、児童性的虐待素材、名誉毀損的な生成物を防ぐための入出力フィルターの実装を義務づけられます。怠れば契約違反となり、Kreaは重みの更新やアクセス停止を行う権利を持ちます。

Kreaは2022年にサンフランシスコで創業し、これまでに計8300万ドルを調達、利用者は191カ国で3000万人を超えると説明しています。複数のAIエンジンを束ねる集約サービスから、自社開発モデルを提供する企業への転換を進めてきました。今回の公開は、閉鎖的なAPIに対し制作者の自由度を重視する選択肢として、オープンウェイト市場での競争を一段と高めるものと位置づけられます。

出典：VentureBeat

PaddleOCRが50言語対応の軽量OCR新版を公開

2026年06月22日検索 OCR 推論画像中国日本エージェントトランスフォーマー Hugging Face RAG

3階層のモデル

パラメータ1.5M〜34.5M

tiny/small/mediumの3層

用途別に最適サイズ選択

共通バックボーン採用

性能と展開

medium認識精度83.2%

v5比で検出・認識向上

50言語を1モデルで対応

Hugging Faceで提供

詳細を見る

中国の百度系PaddleOCRは6月22日、汎用OCRモデルの最新世代「PP-OCRv6」をHugging Faceで公開しました。文書やスクリーンショット、多言語画像、産業ラベルなど実環境のテキスト検出・認識を狙い、1.5M〜34.5Mパラメータの3階層で軽量さと精度を両立します。VLM全盛の時代に専用OCRの実用価値を示す動きです。

モデルはtiny、small、mediumの3層で構成されます。最小のtinyはエッジ端末向け、mediumはサーバー側の高精度処理向けと、用途に応じてサイズと精度を選べる設計です。small以上の2層は簡体字・繁体字・英語・日本語を含む50言語に対応します。

精度面では、PaddleOCR独自の複数シナリオ評価でmediumが検出Hmean86.2%、認識精度83.2%を記録しました。前世代のPP-OCRv5_serverと比べ、検出で4.6ポイント、認識で5.1ポイント向上しています。

技術面では、検出に大カーネルの軽量特徴ピラミッド「RepLKFPN」、認識に局所文脈と全体注意を組み合わせた「EncoderWithLightSVTR」を採用しました。小さく回転した文字や低解像度、複雑な背景といった難しい入力への対応力を高めています。

展開の柔軟性も特徴です。Transformers、ONNX Runtime、Paddle Inferenceの3つの推論基盤に対応し、`pip install paddleocr`で導入できます。出力は可視化画像と構造化JSONで保存でき、文書解析や検索、RAGやエージェントの処理に組み込めます。

出典：Hugging Face

IEEEがAI誕生70年を回顧、責任ある発展を提唱

2026年06月22日 ChatGPT 専門家リスクディープフェイク倫理認証スタンフォードエージェントトランスフォーマー IEEE

AI70年の歩み

1956年ダートマス会議で誕生

1950年チューリングテスト提唱

2017年トランスフォーマー登場

強みと懸念

膨大なデータ処理と自動化

幻覚と偽情報の拡散リスク

人間の判断力低下への警鐘

IEEEの貢献

AI関連標準100超を策定

倫理認証CertifAIEdを推進

詳細を見る

米電気電子学会IEEEは2026年6月22日、専門誌IEEE Spectrumで人工知能の誕生70周年を記念する寄稿を公開しました。執筆者のSan Murugesan氏は、1956年のダートマス会議でAIが正式な学問分野として確立されて以来の歩みを振り返り、その歴史を理解することが技術を善用する鍵になると論じています。

AIの知的源流は1956年より前にさかのぼります。1943年にマカロックとピッツが人工ニューロンの数理モデルを考案し、1950年にはアラン・チューリングが「機械は考えられるか」という問いを投げかけ、後にチューリングテストと呼ばれる評価法を提唱しました。

技術の進化は期待と失望が交錯する道のりでした。1980年代に専門家システムが注目を集めたものの限界が露呈し、資金や関心が冷え込む「AIの冬」を経験します。転機となったのが2017年にグーグルの研究者らが発表したトランスフォーマー技術で、これが今日の生成AIの基盤となりました。

2022年のChatGPT公開以降、AIの普及は電話やテレビ、インターネットを上回る速度で進んでいます。スタンフォード大学のAI Index 2026はこの前例のない採用率を示しており、近年は自律的に動作するエージェント型AIへと進化が続いています。

一方で記事は深刻なリスクも指摘します。AIは確信を持って誤情報を生成する「幻覚」を起こし、偽情報やディープフェイクの拡散を助長しかねません。AIへの過度な依存が人間の判断力や批判的思考を損なう恐れもあると警告しています。

IEEEはAIの進歩を記録するだけでなく、その発展と責任ある利用を主導してきました。100を超えるAI関連標準を策定し、倫理的な設計を促す認証プログラムCertifAIEdを運営しています。記事は、AIを人間中心で信頼でき倫理的なものに保つことが今後の責務だと締めくくっています。

出典：spectrum.ieee.org

Alibaba動画AIが世界2位、SoraとSeedance撤退

モデルの実力

Video Arena3部門で世界2位

Veoを69点上回るスコア

150億パラメータの統合型設計

音声まで一括生成

市場と戦略

Sora終了とSeedance凍結で空白

API先行で企業導入を狙う

投資527億ドルのインフラ網

米国防総省の中国軍企業リスク

詳細を見る

Alibaba Cloudは6月21日、AI動画生成モデル「HappyHorse 1.1」を公開しました。企業向けにAPIを全面開放し、最初の2週間は全機能で40%割引を提供します。OpenAIのSoraが採算難で終了し、ByteDanceのSeedance 2.0も著作権問題で国際展開を凍結するなか、世界2位の実力を武器に企業市場の主役を狙う動きです。

同モデルは4月に匿名でベンチマークに登場し、独立評価サイト「Artificial Analysis Video Arena」で即座に首位を獲得しました。現在は3つのリーダーボード全てで2位につけ、テキスト動画ではGoogleのVeo-3.1を69点上回ります。人間の評価者による比較に基づくEloスコアでの差であり、一時的なぶれではない品質差を示しています。

技術面の強みは、テキスト・画像・動画・音声を単一の150億パラメータTransformerで処理する統合設計です。動画と音声を別々のモデルでつなぐ競合と異なり、一度の生成ですべてを扱うため、外部の吹き替えや後処理が不要になります。導入箇所や依存ベンダーが減り、企業にとって総保有コストの削減につながります。

1.1版では商用制作の課題を狙って改良しました。複数の参照画像で人物の一貫性を保つR2V機能を新搭載し、広告やシリーズ動画で問題となる被写体のブレを抑えます。動作の滑らかさや、機械生成と分かる「肌のテカリ」「過剰な先鋭化」といった不自然な質感も改善されました。

競争環境はAlibabaに有利です。Soraは1日約100万ドルの運用費に対し総収益が約210万ドルにとどまり、4月26日に終了しました。Seedance 2.0はNetflixやDisneyなど大手スタジオの法的警告を受け、国際展開を無期限延期しています。残るはGoogle Veoのみですが、Arenaの評価ではHappyHorseが上回ります。

一方で地政学リスクも残ります。米国防総省は6月8日、AlibabaをBYDやBaiduとともに中国軍企業リストに加えました。即座の制裁ではないものの、企業の調達判断には複雑さを加えます。欧州ではフランスなど現地データセンターを開設し、主権対応のインフラで信頼を得られるかが今後の鍵となります。

出典：VentureBeat

IEEEがLLMオンライン講座を開講、技術者の実装力底上げへ

2026年06月19日エンジニア専門家脆弱性コンテンツコーディングデプロイエージェントプロンプトトランスフォーマー GRPO IEEE RAG RLHF LoRA

講座の中身

全5講座のオンラインプログラム

Transformer構造を数式から解説

PyTorchで学習パイプライン実装

RAG・RLHF・量子化まで網羅

ねらいと修了特典

プロンプトを超えた構築力育成

修了でデジタルバッジ付与

組織向け団体研修にも対応

詳細を見る

IEEEは2026年6月19日、技術者向けにLLMの仕組みを基礎から学ぶオンライン講座「Large Language Models Demystified」を開講したと発表しました。IEEE Learning Networkを通じて提供される全5講座構成のプログラムで、IEEE Educational ActivitiesがIEEE Computer Societyと共同で開発しています。

背景には、LLMを使う人と作れる人の差が急速に広がっている現状があります。LLMはメールや旅行計画に使う一般用途を超え、ソースコードの脆弱性検出や技術仕様の整理など、技術者の日常業務を支える基盤要素になりつつあります。市場は2030年まで年率約33%の成長が見込まれ、実装力は専門技能から必須要件へと変わりつつあります。

講座は単なるプロンプト術ではなく、生成AIの工学的な仕組みに踏み込む内容です。Transformerの自己注意機構や位置エンコーディングをNumPyとPythonで実装し、PyTorchでエンドツーエンドの学習パイプラインを構築します。LoRAなどのパラメータ効率化手法や量子化も扱います。

さらに最適化やアライメント、デプロイの段階では、RLHFやGRPO、RAG、エージェント型AIまで取り上げます。なぜモデルがそう動くのかを理解することで、開発者は試行錯誤から脱し、信頼性の高いAIツールを設計できるようになります。

修了者にはプロフェッショナル開発単位とIEEEのデジタルバッジが付与され、習得した専門性を証明できます。組織単位でチームを育成したい企業は、IEEEのコンテンツ専門家を通じて団体登録や研修プランの相談が可能です。

出典：spectrum.ieee.org

OpenAI、IPO前にAI著名人2人を招請

2026年06月18日 OpenAI Anthropic Gemini リスク米国人事 IPO トランスフォーマートランプ Google DeepMind

今回の人事

Shazeer氏がグーグル退社

OpenAIへ電撃移籍

Transformer論文の共著者

元政府高官Dean Ball氏も入社

新組織「Strategic Futures」率いる

Jason Kwon最高戦略責任者直属

IPOと業界再編

株式上場を前にした布陣強化

ライバルAnthropicは輸出規制で苦境

詳細を見る

OpenAIが株式上場（IPO）を前に、AI業界の著名人2人を相次いで迎え入れます。米メディアTechCrunchが6月18日に報じた内容によると、グーグル傘下のDeepMindで「Gemini」開発を主導したNoam Shazeer氏と、トランプ前政権でAI政策を担ったDean Ball氏が、それぞれOpenAIに加わります。上場を控えた時期の人材獲得として注目を集めています。

Shazeer氏は、現代の生成AIの基盤を築いた一人とされる人物です。2017年に発表されTransformerアーキテクチャを提唱した著名論文「Attention Is All You Need」を共著したほか、対話AIの新興企業Character AIを創業しました。2000年から在籍したグーグルを水曜に退社し、今回OpenAIへ移ることになります。

もう一人のDean Ball氏は、政策面での体制を固めるための起用です。同氏はホワイトハウスで米国のAI行動計画の策定に関わった後に退任しており、7月6日付でOpenAIの新チーム「Strategic Futures」を率いると自身のXで表明しました。最高戦略責任者Jason Kwon氏の直属となります。

新チームの役割は、対外的な政策と社内ガバナンスの両面に及びます。Ball氏はブログで、破滅的リスクや再帰的な自己改善、労働市場への影響、そして主要AI研究所と政府・社会との関係を扱うと説明しました。AI研究所がAIガバナンスを主導せざるを得ないとの見方を示しています。

今回の動きは、激しさを増すAI業界の人材争奪を映しています。グーグル、OpenAI、Anthropic、メタといった大手の間で人材の移動が続いており、Shazeer氏の移籍もその一例です。一方で競合のAnthropicは、トランプ大統領が最新モデルへの輸出規制を命じたことで、モデルの公開停止を余儀なくされる苦境に立たされています。

出典：TechCrunch

Hugging Faceがエージェント向けツール検証手法を公開

2026年06月18日 Qwen ハードウェアコーディングエージェントベンチマークトランスフォーマー Hugging Face

評価手法の狙い

過程まで計測する評価

正解だけでなく手数を測定

ツール改善効果の可視化

検証で得た発見

CLIとSkillで大型は高速化

小型モデルでは精度低下

Qwen3-14Bは正答率半減

Skillの誤認識が失敗要因

詳細を見る

AI開発企業のHugging Faceは2026年6月18日、コーディングエージェントが特定のソフトウェアをどれだけ効率的に扱えるかを測る検証手法を公開しました。同社のライブラリ「transformers」を題材に、最終的な正解だけでなく、答えにたどり着くまでの手数やトークン量、所要時間を計測する点が特徴です。

従来のベンチマークの多くは、エージェントが最終的に正しい答えを出せたかどうかだけを見てきました。しかし同じ結果でも、1コマンドで完了する場合と、40行のスクリプトを書いて何度も再実行する場合では、コストや失敗率が大きく異なります。同社はこの過程の差こそが、ライブラリの設計改善に重要だと指摘します。

検証では各タスクを3つの条件で実行しました。素のインストール状態、ソース全体を複製した状態、そしてCLIの文書と利用例をまとめた「Skill」を読み込ませた状態です。すべてHugging Face Jobs上で同一ハードウェアを使い、モデル・改訂版・タスクの組み合わせごとに並列実行しています。

結果として、CLIとSkillを追加した変更は大型の高性能モデルの作業時間を短縮しました。一方で小型モデルでは逆効果となる場面が確認されています。例えばQwen3-14Bは、Skillを加えると全体の正答率が67%から43%へ低下し、感情分類タスクでは100%から0%まで崩れました。

原因をたどると、小型モデルがSkillを実行可能なツールと誤認し、シェルから動かすべきCLIを直接呼び出そうとして処理を断念していたことがわかりました。同社は、エージェント向けのAPIはモデル規模ごとに評価すべきだと結論づけ、検証手法を自社ライブラリにも適用できる形で公開しています。

出典：Hugging Face

Sakana AIが8時間自律調査エージェント発表

2026年06月15日 Google NVIDIA Salesforce チャットボットスライド専門家創業者推論スタートアップ買収評価額エージェント基盤モデルトランスフォーマー

Marlinの概要

初の商用製品Marlin

肩書きは仮想CSO

最大8時間の自律推論

100ページの戦略報告書

対象は企業・金融・調査機関

従量課金は1回100クレジット

技術と背景

探索基盤AB-MCTS採用

複数LLMを動的に使い分け

推論時スケーリング重視

創業者はTransformer論文著者

評価額26億ドル超

MUFGやCitiが出資

詳細を見る

東京拠点のAIスタートアップSakana AIは6月15日、初の商用製品となる自律型リサーチエージェント「Marlin」を発表しました。秒単位で回答する従来型チャットボットとは異なり、最大8時間にわたり自己統治的な推論ループを継続し、引用付きで100ページ規模の戦略レポートや役員向けスライドを生成する点が特徴です。同社はこれを「仮想CSO（最高戦略責任者）」と位置づけ、企業や金融機関、シンクタンク向けに提供します。

利用の流れは通常の大規模言語モデルとは根本的に異なります。ユーザーは調査テーマを与え、初回のすり合わせを経た後は作業から離れるだけで、Marlinが自ら仮説を立て、ウェブを調べ、複数の情報源を照合して因果関係を整理します。最終成果物は単なる文章の塊ではなく、要約スライドや付録、参考文献を備えた構造化された戦略オプション群として届けられます。

中核を担うのは、同社が独自に研究してきた探索エンジンAB-MCTS（適応的分岐モンテカルロ木探索）です。研究を可能性の分岐ツリーとして扱い、行き詰まりが見えた局面では新たな仮説を生む「探索」へ、有望な解には監査と改良を重ねる「活用」へと、外部フィードバックに応じて動的に切り替えます。さらに各サブタスクで最適なモデルを選ぶマルチLLM方式へ拡張し、複数の基盤モデルを集合知として組み合わせている点が商用化の鍵となりました。

料金は段階制で、従量課金は1回の実行に100クレジット、追加クレジットは1点98円です。月額15万円のProプランは2,000クレジット、月額40万円のTeamプランは6,000クレジットを含み、大企業向けには個別見積もりのEnterpriseも用意されています。顧客データはオプトイン同意がない限りモデル学習に使わない厳格な方針を掲げ、M&A;や未公開戦略を扱う企業の懸念に配慮しています。

Sakana AIは2023年に、Googleの2017年論文「Attention Is All You Need」の共著者で「Transformer」という語を生んだLlion Jones氏と、元Google Brain研究者のDavid Ha氏が東京で共同設立しました。巨大な単一モデルに頼るのではなく、魚の群れのような小型で専門特化したモデルの協調を志向する設計思想を掲げ、推論時スケーリングで実績を重ねてきました。

2025年後半には評価額が26億ドル超に達するシリーズBを実施し、NvidiaやGoogleに加え、MUFGやCiti、Salesforceといった大手が出資しています。約300人の専門家が参加した4月からの非公開ベータでは、「想定していなかった切り口を発見した」との評価も得ました。AIの価値が速さから思考の深さへ移る中、Sakanaの動向は今後も注目されます。

出典：VentureBeat

Sapientが約1500ドルで基盤モデルをゼロから訓練

2026年06月10日 ChatGPT Qwen 検索 Llama 推論 GPU インフラベンチマーク基盤モデルトランスフォーマー Gemma Intel

低コスト訓練の仕組み

階層型再帰モデルで効率化

指示応答ペアのみで訓練

10億パラメータ・400億トークン

GPU16台で1.9日で完了

ベンチマーク性能

MMLU 60.7%で大型モデルに匹敵

訓練トークン数100〜900分の1

推論と知識記憶の分離が鍵

企業向けの展望

独自ドメイン特化の推論エンジン

外部検索との組み合わせ前提

詳細を見る

Sapient Intelligenceの研究チームは、独自のHRM-Text（階層型再帰モデル）アーキテクチャを用いて、わずか約1500ドルで10億パラメータの基盤言語モデルをゼロから訓練したと発表しました。従来、基盤モデルの事前訓練には数百万ドル規模の費用とインターネット規模のデータが必要とされてきましたが、同社はこの常識を覆す結果を示しています。

HRM-Textの核心は、計算を「ゆっくり変化する戦略層」と「素早く変化する実行層」に分離する二層構造にあります。従来のTransformerが生テキストに対して次トークン予測を繰り返すのに対し、HRM-Textは指示と応答のペアのみを訓練データとして使い、タスク完了を目的関数としています。さらに、再帰的な構造で生じる勾配の不安定性を抑えるため、独自の正規化技法「MagicNorm」とウォームアップ手法を導入しました。

ベンチマーク評価では、MMLU 60.7%、GSM8K 84.5%、MATH 56.2%を達成しています。これは20億〜70億パラメータ規模のオープンモデルと同等以上の水準です。訓練に使ったトークン数はQwen・Gemma・Llamaなどの100分の1から900分の1、推定計算量は96分の1から432分の1にとどまります。GPU16台のクラスタで1.9日という短期間で訓練が完了しました。

同社CEOのGuan Wang氏は、企業が直面する課題を「訓練コスト・インフラの重さ・実験サイクルの遅さ」の三重苦と表現しています。HRM-Textは知識の暗記と推論能力を切り離す設計のため、企業は自社データを外部のフロンティアモデルに送ることなく、コンパクトな推論エンジンとして活用できます。外部の検索システムと組み合わせることで、事実情報の取得は別途行う構成が想定されています。

現段階では「ChatGPTの代替にはまだならない」とWang氏自身が認めており、プロダクション利用にはテンプレート設計やアテンションマスクの調整など技術的な作業が必要です。それでも、基盤モデルの訓練コストが1500ドル台に下がるインパクトは大きく、「AIはインフラの問題ではなく戦略の問題になる」と同氏は主張しています。Transformersライブラリでのサポートも始まっており、vLLMやSGLangへの対応も開発中です。

出典：VentureBeat

Google、テキスト拡散モデルDiffusionGemmaを公開

2026年06月10日 Google NVIDIA ワークフロー画像生成推論 GPU 画像エージェントトランスフォーマー Hugging Face Gemma Google DeepMind

モデルの技術的特徴

256トークンを同時生成

Gemma 4ベースの26B MoE構成

推論時は3.8Bパラメータのみ起動

Apache 2.0でオープン公開

性能と対応環境

H100で毎秒1000トークン超

RTX 5090で毎秒約700トークン

自己回帰モデル比最大4倍高速

NVIDIAが各GPU向けに最適化

詳細を見る

Google DeepMindは2026年6月10日、テキスト拡散モデル「DiffusionGemma」をApache 2.0ライセンスで公開しました。従来の自己回帰型LLMが1トークンずつ逐次的にテキストを生成するのに対し、DiffusionGemmaは画像生成AIと同様の拡散手法を用いて最大256トークンを同時に生成します。これにより、GPU上でのテキスト生成速度が最大4倍に向上します。

モデルはGemma 4ファミリーをベースとした26B規模のMixture of Experts構成で、推論時に起動するパラメータは3.8Bにとどまります。そのため量子化により高性能コンシューマーGPUのVRAM 18GBに収まります。双方向アテンションにより、インライン編集やコード補完、数理グラフなど非線形な生成タスクで従来モデルより優位性を発揮します。

NVIDIAは同日、DiffusionGemmaを自社GPU群で最適化したことを発表しました。単一のH100で毎秒1000トークン超、RTX 5090で毎秒約700トークンの推論速度を実現しています。DGX Spark、RTX PRO 6000、DGX Stationでも動作し、ローカル環境でのエージェント処理や対話型ワークフローに適しています。

Googleはこのモデルを実験的な位置づけとし、品質面では標準的なGemma 4が依然として推奨されると明記しています。一方で、速度重視のローカル推論やリアルタイムの対話型アプリケーション開発において、拡散ベースのテキスト生成が新たな選択肢になると強調しています。Hugging Face TransformersやvLLM、Unslothなど主要ツールで即日利用可能です。

出典：DeepMind公式 | Ars Technica | NVIDIA公式

ベゾス出資の脳科学AIスタートアップが5億ドル調達

2026年06月04日 Google Amazon 創業者半導体データセンターエネルギースタートアップ評価額トランスフォーマー Google DeepMind

Flourishの構想

脳の中核アルゴリズム解明が目標

消費電力50ワット以下の合成知能を構築

5億ドル調達、評価額25億ドル

LLMの限界への挑戦

人間の脳は20ワットで動作

LLMは膨大なデータと電力を消費

学習後の継続学習が不可能

研究体制と展望

神経科学者とAI研究者が共同研究

大脳皮質カラムの構造に着目

詳細を見る

元Amazon幹部のRob Williamsと神経科学者Thomas Reardonが共同設立したFlourishが、Jeff Bezosから約1億ドルの出資を含む総額5億ドルを調達しました。評価額は25億ドルで、Lux Capital、Google Ventures、Catalioなども出資しています。同社は人間の脳の「中核アルゴリズム」を解明し、消費電力50ワット以下で動作する合成知能の構築を目指しています。

現在のLLMは人間の脳と比較して根本的に非効率です。人間の脳が約20ワットで情報処理を行うのに対し、AIチップ1枚で600ワット以上を消費します。さらにLLMは学習後の継続学習ができず、新たなモデルを訓練するたびに膨大なデータと計算資源が必要になります。Reardonは「英語を学ぶのに人類が書いたすべての本を20回読む必要がある、というのは根本的に間違っている」と指摘しています。

Flourishの研究チームは約24名の神経科学者とAI研究者で構成され、ニューヨークのオフィスにはデータセンターが併設されています。DeepMindのProject Astraを率いるGreg Wayneが上級アドバイザーとして参加し、勤務時間の20%をFlourishに充てています。チームは大脳皮質カラムと呼ばれる脳の基本的な計算単位に注目しており、共同創業者Joshua Vogelstenらの研究では、ショウジョウバエの神経回路がトランスフォーマーの10倍効率的であることが示されています。

近い将来の収益化にも着手しています。海馬に着想を得た記憶処理によって、大量の学習データなしで継続学習できるモデルを開発中で、モバイル端末への搭載を見据えて大手チップメーカーとの交渉も進めています。Reardonは5年以内の成果を見込んでいますが、アドバイザーのカリフォルニア大学バークレー校Ben Recht教授は「成功するか確信はないが、実現すればAIは根本から変わる」と述べています。

出典：WIRED

NVIDIAが金融向け取引基盤モデルの構築支援を本格展開

2026年06月02日 NVIDIA Stripe AWS エコシステムエンジニア強化学習リスククラウドエージェント基盤モデルトランスフォーマー RAG

基盤モデルへの転換

個別AIモデルのサイロ化が限界に

トランスフォーマーで統一的な行動表現を学習

文脈理解により不正検知・与信の精度向上

手作業の特徴量設計が不要に

大手金融の採用状況

Revolutが240億イベントで基盤モデル構築

Mastercardが数百億件規模の独自モデル開発

Stripeが年間1120億ドルの不正をブロック

エコシステムの整備

NVIDIAが開発者向けテンプレートを公開

AWS・Nebiusのクラウド基盤で即時利用可能

詳細を見る

NVIDIAは2026年6月2日、金融機関が自社の取引データを活用してトランスフォーマーベースの基盤モデルを構築するための開発者向けテンプレート「Build Your Own Transaction Foundation Model」を公開しました。金融業界では不正検知・与信・レコメンドなど用途ごとに個別のAIモデルを運用してきましたが、サイロ化による非効率が課題となっており、統一的な基盤モデルへの移行が加速しています。

先行事例として、RevolutはNVIDIAと共同で「PRAGMA」と呼ばれる基盤モデル群を構築しました。26カ国・2600万ユーザーの240億件のイベントデータで訓練され、与信スコアリングや不正検知など複数領域で既存の専用モデルを上回る性能を示しています。従来数週間から数カ月かかっていた特徴量エンジニアリングが不要になった点も大きな成果です。

Mastercardは数百億件規模の匿名化された取引データで独自の大規模テーブル基盤モデルを開発中で、不正検知やパーソナライゼーションなど幅広い用途を見込んでいます。Adyenは1兆ドル規模の決済処理に基盤モデルを導入し、強化学習でコンバージョン最大化とリスク最小化を実現しています。Stripeは昨年1120億ドルの不正をブロックし、不正率を平均38%削減しました。

NVIDIAの調査によると金融機関の65%がすでにAIを活用し、42%がエージェント型AIの利用・評価を進めています。今回のテンプレートはAWSのSageMaker HyperPodやNebius AI Cloud上で利用可能で、EXL・Infosys・GFT・Thoughtworksなどのサービスパートナーが導入支援を提供します。既存のパイプラインに統合できる設計のため、ゼロからの再構築なしに基盤モデルの恩恵を得られる点が特徴です。

出典：NVIDIA公式

NVIDIA、物理AI向け統合基盤モデルCosmos 3を公開

2026年06月01日 NVIDIA エンジニア推論 GPU 画像ロボットヒューマノイドベンチマーク基盤モデルトランスフォーマー Hugging Face

単一モデルで統合

推論と生成の統合モデル

テキスト・映像・音・動作対応

MoTアーキテクチャ採用

従来の4モデルを1つに集約

用途と公開形態

ロボット・自動運転・スマート空間

合成データ生成を支援

16Bと64Bの2サイズ提供

Hugging Faceでオープン公開

詳細を見る

NVIDIAは6月1日、物理AI向けの世界基盤モデル「Cosmos 3」を発表しました。COMPUTEXのGTC台北で公開された本モデルは、テキスト・映像・画像・音・動作という複数のモダリティを単一モデルで処理し、ロボットや自動運転車、スマート空間が現実世界を理解・予測・行動するための基盤を提供します。

最大の特徴は、これまで世界生成・制御生成・シーン理解・方策生成という用途ごとに別々のモデルを使い分けていたものを、1つのモデルに統合した点です。Mixture-of-Transformers（MoT）アーキテクチャを採用し、推論を担う自己回帰部分と生成を担う拡散部分が共同注意で連携します。これにより、視覚言語モデル、映像生成、ロボット方策などを構造を変えずに切り替えられます。

物理AIにとって重要なのは、画像や映像だけでなく動作信号を扱える点です。Cosmos 3はロボットの関節角度やグリッパー位置、軌道点といった数値的な動作データを直接生成でき、ピック&プレース作業などの学習に役立ちます。開発者は特定のロボットや作業環境に合わせて追加学習することも可能です。

活用事例も広がっています。NVIDIAのGEARチームは映像動作モデルの開発に、Agile Robotsは産業用ヒューマノイドの方策開発向けデータ生成に本モデルを利用しています。Linker Visionはスマートシティ向けに数千のカメラ映像を解析し、根本原因分析などに活用しています。

公開形態として、16BのNanoと64BのSuperの2サイズが用意され、いずれもHugging Faceでオープンに提供されます。NanoはRTX PRO 6000など作業用GPUで動作し、Superは大規模な合成データ生成や研究向けです。Linux FoundationのOpenMDW 1.1ライセンスのもと、重みやデータセット、コードを単一ライセンスで扱えます。

性能面でも、Cosmos 3はArtificial Analysisのオープン重みリーダーボードで首位に立ち、Physics-IQやR-Benchなど複数の世界生成ベンチマークでトップを記録しています。衝突や稀なエッジケースなど、現実では安全に再現しにくい場面を合成データで補える点が、物理AI開発の加速につながりそうです。

出典：NVIDIA公式 | Hugging Face

MiniMax M3、低コストで主要モデル超え

2026年06月01日 DeepSeek Gemini Claude GPT-5 Opus 推論ファインチューニングオープンウェイトリスクデータ漏洩ハードウェアコンプライアンス中国スタートアップエージェントベンチマークトランスフォーマー

性能と価格

主要ベンチマークでGPT-5.5超え

API料金は米大手の8〜20%

月20ドルから利用可能なプラン

10日内にオープンウェイト公開予定

技術の核心

新型疎注意機構MSA採用

計算量を前世代の20分の1に

100万トークンと多モーダル対応

企業利用

ローカル実行で情報漏洩防止

Opus 4.8には複雑推論で劣後

詳細を見る

中国のAIスタートアップMiniMaxは6月1日、大規模言語モデル「M3」を公開しました。100万トークンの文脈長とネイティブな多モーダル機能を備え、主要ベンチマークの一部でGPT-5.5やGemini 3.1 Proを上回りながら、価格は米大手プロプライエタリモデルのわずか8〜20%に抑えた点が最大の特徴です。月額20ドルからのサブスクリプションで提供されます。

性能面では、自律エージェント指標のSWE-Bench Proで59.0%を記録し、GPT-5.5やGemini 3.1 Proを上回りました。BrowseCompでは83.5%を獲得し、Claude Opus 4.7の79.3%を超えています。一方で、先週公開されたClaude Opus 4.8には同指標で69.2%対59.0%と差をつけられ、複雑な推論を要する領域では依然としてクローズドモデルが優位を保っています。

低コストを支えるのが、新開発のMiniMax Sparse Attention(MSA)です。従来のTransformerは入力が長くなるほど計算量が二乗で増えますが、MSAは事前選別でKVブロックを効率処理することでこれを回避します。100万トークン処理時の演算負荷は前世代の20分の1に低下し、デコードは15倍に高速化しました。

同社はM3をオープンウェイトライセンスで10日以内に公開する方針です。これにより企業は自社ハードウェア上でローカル実行でき、公開API経由でのデータ漏洩リスクを排除できます。独自のファインチューニングや内部アーキテクチャの改変も可能になり、汎用モデルを専有資産に転換できる点が、コンプライアンス重視の企業に響きます。

製品面では、AIエージェント「MiniMax Code」がエージェントチーム機能を提供します。生成役と検証役が敵対的に協調する「Producer+Verifier」ループにより、人手の監督なしで数日間自律稼働が可能です。実際の検証では、ICLR2025受賞論文の再現に約12時間自律で取り組み、18件のコミットと23の実験図を生成したと報告されています。

DeepSeek-V4 Pro Maxと比べてもM3はコード合成で優位を保ち、SWE-Bench Proで59.0%対55.4%と僅差で上回りました。次世代のエージェント開発は、巨大なデータセットだけでなく、効率的なアーキテクチャ設計が鍵を握ることをM3は示しています。

出典：VentureBeat

Reachy Miniが完全ローカルAI会話に対応

2026年05月27日 OpenAI Apple Qwen Llama 推論クラウドプライバシー音声ロボットヒューマノイドコンテキストトランスフォーマー Hugging Face Gemma

完全ローカル音声パイプライン

クラウド不要で音声AI会話を実現

VAD・STT・LLM・TTSの4段構成

Silero VADとParakeet STTを採用

Qwen3-TTSで多言語音声合成

柔軟なLLM構成と導入手順

llama.cppやMLXなど複数推論基盤に対応

Gemma 4推奨、vLLMも利用可能

brew一発でインストール完了

LAN経由でロボットと接続

詳細を見る

Hugging Faceは2026年5月27日、小型ヒューマノイドロボット「Reachy Mini」の音声会話機能を完全にローカル環境で実行する方法を公開しました。従来はクラウドへの音声送信が必要でしたが、同社のspeech-to-speechライブラリを使い、VAD（音声区間検出）からSTT（音声認識）、LLM（大規模言語モデル）、TTS（音声合成）までの全パイプラインをローカルマシン上で動作させることが可能になりました。

技術構成はカスケード方式を採用しています。音声区間検出にはSilero VAD v5、音声認識にはParakeet-TDT 0.6B v3、音声合成にはQwen3-TTSを推奨構成として選定しています。各コンポーネントは独立しており、より高品質なモデルが登場すれば個別に差し替えられる設計です。

LLMの推論基盤はllama.cpp、MLX、Transformers、vLLMなど複数の選択肢に対応しています。推奨モデルはGemma 4のE4B量子化版で、llama.cppでは`brew install`一発で導入でき、64Kコンテキストウィンドウとフラッシュアテンションによる高速推論が可能です。Apple Silicon搭載MacではMLX経由でQwen3-4Bも低遅延で動作します。

プライバシーとコスト面のメリットも大きいです。音声データが一切外部に送信されず、APIの従量課金も不要になります。ロボットと推論サーバーを別マシンで動かす場合も、LAN内のIPアドレスを指定するだけで接続できます。

Responses APIプロトコルに準拠しているため、ローカル推論だけでなくHugging Face Inference EndpointsやOpenAI互換プロバイダーへの接続も同じインターフェースで切り替え可能です。vLLM 0.21.0以降ではMulti-Token Predictionによるさらなる低遅延化も実現しています。

出典：Hugging Face

Hugging Face、全サイズで最高精度のリランカー6モデルを公開

2026年05月19日検索エンジニア推論 GPU コンテキストベンチマークトランスフォーマー教師 Hugging Face

Ettinリランカーの性能

17Mから1Bまで6サイズ展開

全サイズで既存モデル超えの精度

1Bモデルは教師モデルと同等精度

150Mが600M未満で最強性能

蒸留による学習手法

MSE蒸留で教師モデルを圧縮

約1.4億トリプルの学習データ公開

学習スクリプト約150行で再現可能

推論速度の優位性

17Mモデルが最速の毎秒7517ペア

1Bモデルは教師比2.4倍高速

詳細を見る

Hugging Faceの開発者Tom Aarsen氏は2026年5月19日、Sentence Transformers向けのクロスエンコーダー型リランカー「Ettin Reranker」ファミリーとして、17Mから1Bパラメータまで6つのモデルを公開しました。いずれもジョンズ・ホプキンス大学が開発したModernBERTベースのEttinエンコーダーを基盤としており、学習データと学習スクリプトもあわせてオープンソースで提供されています。

学習手法には、既存の高性能リランカーmxbai-rerank-large-v2（15.4億パラメータ）を教師モデルとしたポイントワイズMSE蒸留が採用されています。約1億4300万件のクエリ・文書・スコアのトリプルで学習し、学習率とバッチサイズ以外のハイパーパラメータは全サイズ共通です。学習スクリプトはわずか約150行で、誰でも同じレシピを再現できます。

ベンチマーク結果では、すべてのモデルが同サイズ帯で最高精度を達成しました。17Mモデルは従来広く使われていたms-marco-MiniLM-L12-v2（33Mパラメータ）をNDCG@10で+0.051上回り、32Mモデルは17倍のパラメータを持つBAAI/bge-reranker-v2-m3（568M）を+0.025超えています。最大の1Bモデルは教師モデルとのMTEBスコア差がわずか0.0001に収まりました。

推論速度でも大きな優位性があります。17MモデルはH100 GPU上で毎秒7517ペアを処理し、MiniLM-L6-v2の約2倍の速度を実現しました。1Bモデルは教師モデルの2.4倍の速度で、精度をほぼ維持しながら大幅な高速化を達成しています。この速度差は、モジュラーTransformerアーキテクチャによるアンパディング処理とFlash Attention 2の組み合わせによるものです。

検索システムの実務では、高速な埋め込みモデルで候補を絞り込み、リランカーで最終順位を決める「retrieve-then-rerank」パターンが標準的です。Ettinリランカーは全モデルが最大8192トークンのコンテキストに対応し、Apache 2.0ライセンスで公開されているため、既存のMiniLM系リランカーからの移行が容易です。

出典：Hugging Face

AllenAI、衛星画像AI「OlmoEarth v1.1」で計算コスト3分の1に

2026年05月19日推論事前学習画像ベンチマーク基盤モデルトランスフォーマー Hugging Face

効率化の技術的手法

トークン統合で系列長を3分の1に短縮

Sentinel-2の3解像度帯を単一トークンに統合

事前学習手法の改良で精度低下を抑制

実用面の影響

推論・学習コストが最大3倍効率化

地球規模の地図更新頻度向上が可能に

Base・Tiny・Nanoの3サイズで公開

学習コードと重みをオープンソースで提供

詳細を見る

AI研究機関AllenAIは2026年5月19日、衛星リモートセンシング向け基盤モデル「OlmoEarth v1.1」を公開しました。前バージョンと同等の性能を維持しながら、計算コストを最大3分の1に削減したモデルファミリーです。マングローブの変化追跡や森林減少要因の分類、国規模の作物マッピングなど、環境保護に関わるパートナー組織の活用拡大を目指しています。

効率化の鍵は、Transformerモデルのトークン系列長の短縮にあります。従来のOlmoEarth v1では、Sentinel-2衛星画像の10m・20m・60mという3つの解像度帯ごとに別々のトークンを生成していました。v1.1ではこれらを単一トークンに統合し、トークン数を3分の1に圧縮しています。Transformerの計算量は系列長の二乗に比例するため、この削減が大幅なコスト低減につながります。

ただし、解像度帯の単純な統合は精度低下を招きます。実際、素朴な統合ではm-eurosat kNNベンチマークで10ポイントもの精度低下が確認されました。AllenAIは事前学習の手法を改良することでこの課題を克服し、v1と同等の性能を実現しています。学習データセットはv1と同一のため、手法変更の効果を厳密に分離して検証できる点も研究面で価値があります。

モデルはBase・Tiny・Nanoの3サイズで提供され、Hugging Face上で重みと学習コードがオープンソースとして公開されています。AllenAIは、より効率的なモデルにより自組織のプラットフォームでより多くのパートナーを支援でき、独自運用するチームにとっても惑星規模の地図更新がより手頃になると説明しています。

出典：Hugging Face

PaddleOCR 3.5、Transformers推論に対応

2026年05月18日 OCR エンジニア推論インフラ画像エージェントトランスフォーマー Hugging Face RAG

主な変更点

Transformersを推論バックエンドに追加

engineパラメータでバックエンド切替可能

dtype・デバイス配置等を柔軟に設定

パイプライン管理はPaddleOCR側が担当

開発者への影響

HuggingFace中心の環境と自然に統合

RAG・文書AI構築の前処理が容易に

Hub経由のモデル配布に対応

高スループット用途にはpaddle_staticを推奨

詳細を見る

PaddleOCR 3.5が2026年5月18日にリリースされ、Hugging Face Transformersを推論バックエンドとして選択できるようになりました。PP-OCRv5やPaddleOCR-VL 1.5といったOCR・文書解析モデルを、engineパラメータひとつでTransformersバックエンドに切り替えて実行できます。

RAGや文書エージェントの構築では、PDFやスキャン画像を構造化データに変換する前処理が精度を左右します。PaddleOCRはこの文書取り込み工程を担うOCR・文書解析モデルを提供してきましたが、従来はPaddlePaddle固有の推論エンジンが前提でした。今回の対応により、PyTorch/Transformersベースのインフラを使うチームでも統合の手間が大幅に減ります。

使い方はシンプルで、PaddleOCRのコンストラクタにengine="transformers"を指定するだけです。engine_configでdtypeやアテンション実装の選択も可能で、開発環境に合わせた最適化ができます。Hugging Face Spacesではライブデモも公開されています。

注意点として、OCR・文書解析のスループットを最大化したい場合は、PaddleOCRのデフォルトであるpaddle_staticバックエンドが引き続き推奨されます。Transformersバックエンドは既存のバックエンドを置き換えるものではなく、開発スタックに応じて推論バックエンドを選べる柔軟性を提供するものです。

出典：Hugging Face

IBMが97Mパラメータで最高精度の多言語埋め込みモデルを公開

2026年05月14日 LangChain 検索 Llama 推論 GPU コンテキストベンチマークトランスフォーマー LlamaIndex RAG

小型モデルの性能躍進

97Mパラメータで同規模最高の検索精度

MTEB多言語検索で60.3を記録

前世代R1から12.2ポイント改善

コンテキスト長を512から32Kトークンに拡大

実用性重視の設計思想

Apache 2.0ライセンスで商用利用可

200以上の言語と9種のプログラミング言語に対応

LangChain等の主要フレームワークに1行で導入可能

311Mモデルの総合力

MTEB多言語検索65.2で上位

Matryoshka対応で次元削減時も精度維持

詳細を見る

IBMは2026年5月14日、オープンソースの多言語埋め込みモデル「Granite Embedding Multilingual R2」を発表しました。97Mパラメータのコンパクトモデルと311Mパラメータのフルサイズモデルの2種類で、いずれもApache 2.0ライセンスのもと、200以上の言語と9種類のプログラミング言語に対応します。

最大の注目点は97Mパラメータモデルの検索性能です。MTEB多言語検索ベンチマークで60.3を記録し、100M未満のオープンな多言語埋め込みモデルとしては最高スコアとなりました。同規模で次点のmultilingual-e5-smallの50.9を9.4ポイント上回っています。前世代のR1モデルからはアーキテクチャの刷新やトレーニング手法の改良により、12.2ポイントの大幅な改善を実現しています。

技術面では、エンコーダをXLM-RoBERTAからModernBERTに刷新し、コンテキスト長を512トークンから32,768トークンへ64倍に拡大しました。これにより長文文書の検索精度が劇的に向上し、LongEmbedベンチマークでは31.3ポイントの改善を記録しています。法務文書や技術マニュアルなど、実務で扱う長い文書の検索において大きな恩恵をもたらします。

311MモデルはMatryoshka表現学習に対応しており、768次元の埋め込みを256次元に削減してもMTEB多言語検索で0.5ポイント低下にとどまります。ストレージや計算コストを3分の1に抑えつつ高い検索品質を維持できるため、大規模な本番環境への導入に適しています。

企業利用を強く意識した設計も特徴です。MS-MARCOデータセットや非商用ライセンスのデータを使用せず、IBMが独自にキュレーションしたデータで学習しています。sentence-transformersやLangChain、LlamaIndex、Haystack、Milvusといった主要フレームワークにモデル名を1行変更するだけで導入できるため、既存のRAGパイプラインへの組み込みも容易です。ONNX・OpenVINO形式のウェイトも同梱されており、GPUなしでのCPU推論にも対応しています。

出典：Hugging Face

Hugging Face、LLM推論を22%高速化する非同期バッチ処理を公開

2026年05月14日推論強化学習 GPU トランスフォーマー Hugging Face

同期処理の無駄を解消

GPU待機時間が全体の24%を占める問題

CPUとGPUが交互に動く同期処理が原因

CUDAストリームで並列実行を実現

非同期化の技術的課題

CUDAイベントによるストリーム間同期

ダブルバッファでデータ競合を回避

キャリーオーバーで出力トークンを次バッチへ引き継ぎ

実測で大幅な性能向上

GPU稼働率が76%から99.4%に改善

モデル変更なしで22%の速度向上

詳細を見る

Hugging Faceは2026年5月14日、LLM推論における連続バッチ処理（Continuous Batching）を非同期化し、生成速度を22%向上させる手法を技術ブログで公開しました。従来の同期方式ではCPUとGPUが交互に稼働するため、GPU待機時間が全体の約24%に達していたことが問題の背景です。

従来の連続バッチ処理では、CPUがバッチを準備している間GPUは遊休状態となり、GPUが計算している間CPUも待機するという非効率が生じていました。8Bモデルで8Kトークン生成の実験では、全生成時間300.6秒のうち約72秒がGPUのアイドル時間でした。この「交互動作」のボトルネックを解消するために、CPU側のバッチ準備とGPU側の計算を同時に走らせる非同期方式が提案されています。

技術的には3つのCUDAストリーム（ホスト-デバイス転送、計算、デバイス-ホスト転送）を用い、CUDAイベントでストリーム間の依存関係を制御します。バッチNの計算中にバッチN+1の入力をCPU側で準備し、GPUへ転送しておくことで待ち時間をなくす仕組みです。データ競合を避けるため入出力テンソルを2スロット用意し交互に使う「ダブルバッファ」方式を採用しています。

もう1つの課題は、バッチNの出力トークンがバッチN+1の入力に必要な点です。これには「キャリーオーバー」と呼ばれる手法で対処します。バッチN+1の入力にプレースホルダー（値0）を置いておき、バッチNの計算完了後に実際のトークンを上書きする処理をCUDAグラフに組み込んでいます。

同じ8Bモデル・8Kトークン・バッチサイズ32の条件で検証した結果、GPU稼働率は76.0%から99.4%に向上し、生成時間は300.6秒から234.5秒へと22%短縮されました。モデルのカーネル変更は一切不要で、CPUとGPUの協調スケジューリングだけで達成しています。実装はtransformersライブラリに統合済みで、強化学習など16K以上の長文生成ユースケースでさらなる最適化を進めるとしています。

出典：Hugging Face

Zyphra、8Bパラメータで大規模モデルに迫る推論モデルを公開

2026年05月07日 NVIDIA DeepSeek Claude 数学 Sonnet 推論事前学習推論モデル GPU オンデバイススタートアップコンテキストベンチマークトランスフォーマー

ZAYA1-8Bの革新

総パラメータ8B、活性パラメータわずか760M

独自MoE++アーキテクチャ採用

KVキャッシュ8分の1に圧縮

Apache 2.0で商用利用可能

驚異的ベンチマーク性能

AIME '25で91.9%達成

HMMT数学でClaude 4.5 Sonnet超え

LiveCodeBenchでDeepSeek-R1超え

AMD基盤と業界への示唆

AMD Instinct MI300で全訓練完了

エッジデバイスへの展開が現実的に

詳細を見る

Palo AltoのスタートアップZyphraは2026年5月7日、オープンソースの推論特化型言語モデルZAYA1-8BをApache 2.0ライセンスで公開しました。総パラメータ数は約84億、活性パラメータはわずか7.6億という超効率設計で、AMD Instinct MI300 GPUのみで訓練された点が大きな特徴です。

ZAYA1-8Bは独自のMoE++アーキテクチャを採用しています。圧縮畳み込みアテンション（CCA）によりKVキャッシュを従来の8分の1に削減し、長文脈での推論効率を大幅に向上させました。さらにMLPベースのルーター設計やPID制御に着想を得た安定化手法など、Transformer基盤に根本的な改良を加えています。

最大の技術的突破は推論時の計算手法Markovian RSAです。複数の推論トレースを並列生成し、末尾部分のみを集約して再推論するという手法で、コンテキスト窓を溢れさせずに深い思考を実現します。これによりAIME '25で91.9%、HMMT '25数学で89.6%（Claude 4.5 Sonnetの79.2%を上回る）、LiveCodeBenchで69.2%（DeepSeek-R1-0528超え）という驚異的なスコアを記録しました。

事前学習段階から推論能力を組み込む「推論ファースト事前学習」も特徴的です。長い思考連鎖がコンテキストに収まらない場合、問題設定と最終回答を保持しつつ中間部分を刈り込むAnswer-Preserving Trimmingを開発し、問題と解答の関係を効率的に学習させています。

企業にとっての実用的意義は大きく、活性パラメータ760Mという軽量さはオンデバイス展開やエッジ推論を現実的にします。データ所在地の制約やAPI依存コストといった課題を解消し、高度な推論能力をローカル環境で利用可能にします。AMD GPUでの訓練成功は、Nvidia一強への有力な対抗軸が成立することを示しました。2025年にユニコーン評価を得たZyphraは、AMDやIBMの支援のもと「パラメータを増やす」以外のAI進化の道筋を示しています。

出典：VentureBeat

NVIDIA、視覚・音声・言語を統合した軽量マルチモーダルAIモデルを公開

2026年04月28日 NVIDIA オラクル OCR 推論オープンウェイトクラウドデータセンター画像動画音声デプロイエージェントベンチマークトランスフォーマー Hugging Face Computer Use

モデルの特徴と性能

視覚・音声・テキストを単一モデルで処理

文書理解など6つのベンチマークで首位

従来比最大9倍のスループット向上

アーキテクチャと技術基盤

Mamba-Transformer-MoEのハイブリッド構成

動的解像度で高精細文書に対応

音声エンコーダによるネイティブ音声入力

活用領域と展開

GUIエージェントや文書分析に対応

オープンウェイトで公開・商用利用可

詳細を見る

NVIDIAは2026年4月28日、マルチモーダルAIモデルNemotron 3 Nano Omniを公開しました。このモデルはテキスト・画像・動画・音声を単一のアーキテクチャで処理できるオムニモーダルモデルで、AIエージェントの構築を効率化することを目的としています。パラメータ規模は30B（アクティブ3B）で、従来のように複数モデルを組み合わせる必要がなくなります。

性能面では、文書理解のMMLongBench-DocやOCRBenchV2、動画理解のWorldSense、音声理解のVoiceBenchなど6つの主要ベンチマークでトップの精度を記録しています。同等の対話性能を持つオープンなオムニモデルと比較して、マルチドキュメント処理で7.4倍、動画処理で9.2倍のシステム効率を実現しました。

アーキテクチャの核となるのは、23層のMamba状態空間モデル、23層のMixture-of-Experts（128エキスパート、Top-6ルーティング）、6層のグループ化クエリアテンションを組み合わせたハイブリッド構成です。視覚側にはC-RADIOv4-Hエンコーダを採用し、動的解像度処理により100ページ超の文書やGUIスクリーンショットにも対応します。音声側にはParakeet-TDT-0.6B-v2エンコーダを搭載し、最大20分の音声入力をネイティブに処理できます。

想定される活用領域は、企業文書の分析、GUI操作を行うコンピュータ使用エージェント、長時間の動画・音声理解、自動音声認識、そして汎用的なマルチモーダル推論の5分野です。すでにH Company、Aible、Eka Care、Foxconnなどが採用を進めており、Dell Technologies、Oracle、Infosysなども評価段階にあります。

モデルはオープンウェイトで公開されており、BF16・FP8・NVFP4の各チェックポイントがHugging Faceからダウンロード可能です。訓練データや手法も公開されているため、NVIDIA NeMoを使った独自のカスタマイズが可能です。NVIDIA Jetsonのようなエッジデバイスからデータセンター、クラウドまで幅広い環境にデプロイでき、Nemotronファミリー全体では過去1年で5,000万回以上のダウンロードを達成しています。

出典：Hugging Face | NVIDIA公式

RAG精度チューニングで検索精度が最大40%低下、Redis研究が警告

2026年04月27日検索推論エージェントコンテキストトランスフォーマー RAG

埋め込みモデルの構造的限界

構文感度の訓練が汎用検索を破壊

否定・語順反転で意味が逆転しても近傍に配置

大規模モデルへの拡張では根本解決不可

回帰は本番環境まで検出されにくい

既存手法の限界と2段階修正

ハイブリッド検索やMaxSimも構造的誤りに無力

クロスエンコーダは精度高いが本番規模で破綻

2段階方式: 検索後にTransformer検証器で精度担保

レイテンシ増加は不可避、用途別の判断が必要

詳細を見る

Redisの研究チームが、RAGパイプラインにおける埋め込みモデルの精度チューニングが、汎用的な検索精度を最大40%低下させる可能性があることを明らかにしました。論文「Training for Compositional Sensitivity Reduces Dense Retrieval Generalization」は、構文的に類似しているが意味が異なる文を識別する訓練が、広範なトピックにわたる検索性能を著しく損なうことを実証しています。この問題は特にエージェント型AIパイプラインにおいて深刻で、検索エラーが下流の推論チェーン全体に連鎖的な誤りを引き起こします。

問題の根本は、埋め込みモデルが文全体を高次元空間の単一ベクトルに圧縮する仕組みにあります。「犬が人を噛んだ」と「人が犬を噛んだ」のように、単語が同じでも構造が異なる文は同じ近傍に配置されてしまいます。構文感度を高める訓練を行うと、モデルは汎用的な検索に使っていた表現空間を消費し、2つの目的が同一ベクトル上で競合します。

研究チームは、ハイブリッド検索、MaxSimリランキング、クロスエンコーダ、コンテキストメモリといった既存の代替手法をすべて検証しましたが、いずれも構造的な誤りの検出には不十分でした。キーワード検索は同じ単語を含む文の構造差を判別できず、MaxSimは関連性と同一性という異なる目的を混同します。クロスエンコーダは精度は高いものの、本番規模のクエリ量には耐えられません。

研究が検証した解決策は2段階アーキテクチャです。第1段階では従来通りの密ベクトル検索で候補を幅広く取得し、第2段階で小型の学習済みTransformerモデルがトークンレベルで構造的不一致を検出します。この検証器は、否定反転や役割逆転といった単一ベクトル方式が見逃す失敗パターンを、他のどの手法よりも確実に捕捉しました。

Redis AI研究リーダーのSrijith Rajamohan氏は、RAG自体は依然として有効なアーキテクチャだが、精度が求められるワークロードでは単一段階のパイプラインを本番対応と見なすべきではないと強調しています。2段階方式はレイテンシの増加を伴うため、法務・会計など精度重視の用途では完全検証を、汎用検索では軽量な検証を選択するというトレードオフの判断が求められます。この手法はRedisのLangCache製品への組み込みが計画されていますが、現時点では未提供です。

出典：VentureBeat

天文学のAI分析がGPU需要を加速、NASAローマン望遠鏡も前倒し

2026年04月23日 NVIDIA ネットワーク創業者リスク GPU インフラ画像トランスフォーマー Pixel DLSS トランプ

爆発する天文データ量

ローマン望遠鏡、8カ月前倒しの2026年9月打上げ

生涯で2万TBのデータ取得見込み

JWST、毎日57GBの画像を地上へ送信

ルービン天文台、毎晩20TBのデータ生成予定

ハッブルの日量1〜2GBと桁違いの規模

人手による分析は不可能な水準に到達

GPU駆動のAI解析基盤

深層学習モデルMorpheusで銀河を自動分類

ピクセル単位の意味的分割で構造を識別

初期宇宙に予想外の円盤銀河を発見

CNNからTransformerへのアーキテクチャ移行を推進

DLSS類似技術で地上望遠鏡の大気歪みを補正

GalaxyFriendsで約9万銀河を類似性で整理

NSF助成で構築したGPUクラスタが基盤に

GPU確保の課題

世界的なGPU需要増で研究用確保が困難に

トランプ政権がNSF予算50%削減を提案

大学の限られた資源では最新設備の維持が難航

研究者には起業家的姿勢が必要と指摘

詳細を見る

NASAはナンシー・グレース・ローマン宇宙望遠鏡を当初予定より8カ月早い2026年9月に打ち上げると発表しました。同望遠鏡は運用期間中に2万テラバイトものデータを天文学者に届ける見通しです。すでにジェイムズ・ウェッブ宇宙望遠鏡は毎日57ギガバイトの画像を送信しており、チリのヴェラ・C・ルービン天文台も年内に観測を開始して毎晩20テラバイトを生成する予定です。かつてのハッブル望遠鏡の日量1〜2ギガバイトとは桁違いの規模であり、天文学は本格的なビッグデータ時代に突入しています。

カリフォルニア大学サンタクルーズ校の天体物理学者ブラント・ロバートソン教授は、NVIDIAと15年にわたり協力してGPUを天文学に応用してきました。同教授の研究室が開発した深層学習モデル「Morpheus」は、自動運転車と同じ意味的分割手法を用いてピクセル単位で銀河を分類します。JWSTデータへの適用により、初期宇宙に存在するはずがないとされていた回転円盤銀河を多数発見し、宇宙の進化理論に新たな知見をもたらしました。この発見は当初懐疑的に受け止められましたが、その後独立した複数の研究で確認されています。

ロバートソン教授はMorpheusのアーキテクチャを畳み込みニューラルネットワークからTransformerに移行する作業を進めており、分析可能な領域が数倍に拡大する見込みです。また、NVIDIAのDLSSに概念的に近い手法を用い、宇宙望遠鏡のデータで訓練したモデルを地上望遠鏡の画像に適用することで、大気による歪みを除去して宇宙望遠鏡に近い鮮明さを実現しています。さらに大学院生が開発した「GalaxyFriends」というツールにより、約9万個の銀河を類似性に基づいて整理し、パターンの発見や異常検出を効率化しています。

一方で研究を支えるGPU インフラの確保は深刻な課題となっています。ロバートソン教授はNSFの助成金でサンタクルーズ校にGPUクラスタを構築しましたが、設備は陳腐化しつつあり、AI手法を使いたい研究者は増える一方です。さらにトランプ政権がNSF予算の50%削減を提案しており、研究基盤の維持が一層困難になる懸念があります。ロバートソン教授は「大学はリソースの制約からリスク回避的になる。研究者は起業家的に行動し、この分野の進む方向を示す必要がある」と述べています。

出典：TechCrunch | NVIDIA公式

MIT発OpenProtein.AI、生物学者にAIタンパク質設計を開放

2026年04月17日創業者機械学習リスクスタートアップ MIT 基盤モデルトランスフォーマーノーコード

プラットフォームの特徴

ノーコードでAIモデル利用可能

タンパク質の配列・構造・機能を統合設計

学術機関には無料提供

独自基盤モデルPoET-2搭載

産業・研究への展開

Boehringer Ingelheimと協業拡大

がん・自己免疫疾患の治療開発に活用

少ない計算資源で大規模モデルを凌駕

動的タンパク質設計が次の目標

詳細を見る

MIT発のスタートアップOpenProtein.AIは、AIを活用したタンパク質設計ツールをノーコードプラットフォームとして提供しています。共同創業者のTristan Bepler氏（MIT博士課程修了）とTim Lu氏（MIT元准教授）が立ち上げた同社は、機械学習の専門知識がない生物学者でもAIの最先端モデルを使えるようにすることを目指しています。

同社のプラットフォームは、直感的なWebインターフェースを通じてタンパク質工学の作業を実行できます。中核となる独自モデルPoET（Protein Evolutionary Transformer）は、進化的制約を学習してタンパク質配列群を生成し、再学習なしで新たな実験データを取り込むことが可能です。2025年にリリースされたPoET-2は、はるかに少ない計算資源とデータで大規模モデルを上回る性能を達成しました。

大手製薬企業Boehringer Ingelheimは2025年初頭から同プラットフォームを利用しており、がんや自己免疫疾患の治療用タンパク質設計に向けた協業を拡大しました。学術研究者には無料で提供されており、ラボの規模やリソースに関わらず最先端のAIツールへのアクセスを可能にしています。

今後は、タンパク質の結合イベントを超え、複数の生物学的メカニズムを同時に制御する動的タンパク質の予測・設計に取り組む方針です。Lu氏は「AI資源が一部に集中し、一般の研究者が使えなくなるリスクがある。オープンアクセスは科学の進歩に不可欠だ」と述べ、AI研究基盤の民主化の重要性を強調しました。

出典：MIT News

HuggingFace、MLX向けモデル移植Skillを公開

2026年04月16日 Apple Claude Claude Code 検索 Llama エンジニアリスクエージェントトランスフォーマー Hugging Face

Skillの仕組みと特徴

transformersコードを正解として移植

RoPEバグや精度汚染を自動検出

レイヤー単位で数値比較を実行

PRにレポートと生成例を添付

品質担保の取り組み

非エージェント型テストハーネスを併設

再現可能な検証で幻覚リスクを排除

結果をJSON保存し透明性を確保

今後の展望と課題

mlx-vlmやllama.cppへの拡張を検討

詳細を見る

HuggingFaceは2026年4月16日、transformersライブラリのモデルをAppleのMLXフレームワーク（mlx-lm）に移植するためのSkillとテストハーネスを公開しました。このSkillはClaude Codeのエージェント機能を活用し、コントリビューターとレビュアーの双方を支援することを目的としています。transformersに新モデルが追加された際、速やかにMLXでも利用可能にすることを目指しています。

Skillは単なるコード生成ツールではなく、モデル移植に必要な一連の作業を体系化したものです。Hub上のモデル検索・ダウンロード、仮想環境構築、transformersのモデリングコード読解、MLX実装の作成、テスト実行までを一貫して行います。RoPE設定のバグやfloat32精度汚染といった、経験豊富な開発者でなければ気づきにくい問題も自動的に検出します。

品質担保のために、Skillとは別に非エージェント型のテストハーネスも開発されました。LLMの幻覚や過信に依存しない再現可能な検証を提供し、結果はサマリーレポート、モデルごとの詳細、生のJSON出力として保存されます。ただしこのハーネスはCIゲートではなく、最終的な判断はレビュアーとコントリビューターに委ねられます。

ブログではコードエージェント時代のオープンソース貢献の在り方についても問題提起しています。transformersのようなライブラリでは暗黙の設計契約が重要であり、エージェント生成のPRがレビュアーの負担を増大させている現状を指摘しました。今後はビジョン言語モデル向けのmlx-vlmやllama.cppへの対応拡張、テストハーネスの自動化が検討されています。

出典：Hugging Face

Sentence Transformersがマルチモーダル埋め込みモデルの学習に対応

2026年04月16日 Qwen 検索 GPU 画像動画音声トランスフォーマー Hugging Face

学習手法と実装

テキスト・画像・音声・動画に対応

Qwen3-VL-Embedding-2Bの微調整例を公開

視覚文書検索でNDCG@10が0.888→0.947に向上

実用的な技術要素

MatryoshkaLossで多次元埋め込みに対応

勾配キャッシュで大バッチ学習が可能

テキスト専用と同一のTrainer APIで実装

マルチモーダルリランカーの学習にも対応

詳細を見る

Hugging Faceは2026年4月16日、Sentence Transformersライブラリでマルチモーダル埋め込みモデルとリランカーモデルを学習・微調整する方法を解説するブログ記事を公開しました。テキストだけでなく画像・音声・動画を扱えるモデルの学習が、既存のテキスト専用パイプラインとほぼ同じコードで実現できます。

実践例として、Qwen3-VL-Embedding-2Bを視覚文書検索タスクで微調整する手順が紹介されています。テキストクエリに対して関連するドキュメントのスクリーンショットを検索するタスクで、微調整後のモデルはNDCG@10を0.888から0.947に改善しました。これは8Bパラメータの大型モデルを含む既存のすべてのモデルを上回る成績です。

学習にはCachedMultipleNegativesRankingLossとMatryoshkaLossを組み合わせて使用します。前者は勾配キャッシュにより限られたGPUメモリでも大きな実効バッチサイズを確保でき、後者は埋め込みベクトルを任意の次元数に切り詰めても高い性能を維持できるよう訓練します。512次元への圧縮でもピーク性能の99.7%を保持するという結果が示されています。

さらに、マルチモーダルなクロスエンコーダ（リランカー）モデルの学習方法も紹介されています。画像からテキスト、テキストから画像の双方向の照合を1つのモデルで学習する手法が示されており、Routerモジュールを使った別々のエンコーダの組み合わせにも対応しています。ドメイン固有データでの微調整がモデルサイズの拡大よりも効果的であることを実証した、実践的なガイドとなっています。

出典：Hugging Face

MITが学習中にAIモデルを圧縮、訓練を最大4倍高速化

2026年04月09日数学画像音声ロボティクス MIT ベンチマークトランスフォーマー教師

CompreSSMの仕組み

学習途中で不要次元を削除

制御理論を応用した判定

訓練初期10%で重要度決定

性能と高速化

Mambaで約4倍の訓練高速化

CIFAR-10で85.7%の精度維持

蒸留や枝刈りより低コスト

今後の展望

線形注意機構への拡張検討

ICLR2026で発表予定

詳細を見る

米マサチューセッツ工科大学（MIT）CSAILなどの研究チームは2026年4月9日、AIモデルを学習しながら同時に圧縮する新手法「CompreSSM」を発表しました。従来は大型モデルを訓練後に枝刈りするか、小型モデルを最初から訓練するかの二択で性能と効率のトレードオフが避けられませんでしたが、この手法は訓練の途中で不要な内部次元を切り落とすことで両立を実現します。状態空間モデル（SSM）を対象に、言語処理から音声生成、ロボティクスまで幅広い応用が視野に入ります。

鍵となるのは、制御理論由来のハンケル特異値という数学的指標です。研究チームは各内部状態がモデル全体の挙動にどれだけ寄与するかを測定し、訓練のわずか約10%の段階で重要度ランキングが安定することを発見しました。その後は不要な次元を外科的に除去し、残り90%の訓練を大幅に軽量化されたモデルで進めることが可能になります。

ベンチマークの結果は顕著です。画像分類タスクでは、圧縮モデルがフルサイズと同等の精度を保ちながら訓練速度を最大1.5倍に引き上げました。広く使われる状態空間アーキテクチャ「Mamba」では128次元モデルを約12次元まで圧縮し、約4倍の訓練高速化を達成しています。CIFAR-10では4分の1サイズで85.7%の精度を記録し、同サイズをゼロから学習した場合の81.8%を上回りました。

既存手法と比べた優位性も明確です。訓練後に削る従来の枝刈りや、教師モデルと生徒モデルを二重に訓練する知識蒸留と異なり、CompreSSMは訓練中に情報を基に判断するためコスト増を避けられます。スペクトル正則化手法と比較しても40倍以上高速で、精度も上回ったといいます。

一方で制約もあります。この手法は内部状態の次元と性能の相関が強いモデルで最も効果を発揮し、単入力単出力の構造では恩恵が限定的です。理論は線形時不変系に最も適合しますが、チームはMambaのような時変系への拡張も進めています。論文はICLR2026で発表予定で、将来的には線形注意機構やトランスフォーマー系への応用も視野に入れています。

出典：MIT News

Hugging Face、画像音声動画の埋め込みに対応

2026年04月09日 NVIDIA Qwen 検索 Llama エンジニア推論 GPU 画像動画音声トランスフォーマー Hugging Face RAG

v5.4の新機能

マルチモーダル埋め込み追加

画像・音声・動画を共有空間化

リランカーも多モーダル対応

同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合

2BはVRAM8GBから動作

processor_kwargsへ名称変更

詳細を見る

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像・音声・動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索やRAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー（CrossEncoder）も多モーダル化され、テキスト・画像・動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

出典：Hugging Face

TII、6億パラメータで画像認識の統合モデル「Falcon Perception」公開

2026年04月01日 Meta Apple DeepSeek OCR 推論パッチ画像プロンプトベンチマークオープンソースモデルトランスフォーマー Hugging Face Falcon

単一モデルで高精度認識

画像とテキストを1つのTransformerで統合処理

SAM 3を上回るMacro-F1 68.0達成

属性・OCR・空間理解で大幅な性能差

0.6Bパラメータの軽量設計

OCRモデルも同時発表

Falcon OCRは0.3Bパラメータ

olmOCRベンチで80.3点の高精度

オープンソースOCR中最高スループット

診断ベンチマークPBench

能力別にL0〜L4の5段階で評価

空間理解でSAM 3に+21.9点差

詳細を見る

UAE・技術革新研究所（TII）のFalconチームは2026年4月1日、画像認識・セグメンテーション・OCRを単一のTransformerで処理するオープンソースモデル「Falcon Perception」を公開しました。パラメータ数はわずか6億で、従来のパイプライン型システムに代わる統合的なアプローチを提案しています。

Falcon Perceptionの最大の特徴は、画像パッチとテキストトークンを最初の層から同一のパラメータ空間で処理する「早期融合」アーキテクチャです。画像トークンには双方向注意、テキストトークンには因果的注意を適用するハイブリッドマスクにより、1つのモデルで視覚エンコーダとテキストデコーダの両方の役割を果たします。

オープン語彙セグメンテーションベンチマークSA-Coでは、Macro-F1で68.0を達成し、Meta社のSAM 3の62.3を上回りました。特に属性認識で+8.2、食品・飲料カテゴリで+12.2と大きな差をつけています。一方、存在判定の精度（MCC 0.64対0.82）ではSAM 3に及ばず、今後の改善課題として示されています。

同時に発表されたFalcon OCRは0.3Bパラメータの文書認識モデルです。olmOCR ベンチマークで80.3点、OmniDocBenchで88.6点を記録し、DeepSeek OCR v2やGPT 5.2を上回る性能を示しました。オープンソースOCRモデルとして最高のスループットを実現し、vLLM統合によりA100上で毎秒2.9画像を処理できます。

チームは性能評価のため、能力別に分類した診断ベンチマーク「PBench」も公開しました。単純な物体認識（L0）から関係推論（L4）まで5段階に分かれ、Falcon Perceptionは空間理解でSAM 3に+21.9点、OCR識別で+13.4点と、プロンプトが複雑になるほど差が拡大する結果となっています。

学習には5400万枚の画像と1億9500万の正例表現、4億8800万のハードネガティブを使用しました。3段階の学習レシピにより、シーン理解からタスク特化、高密度シーン対応へと段階的に能力を獲得させています。モデルとコードはHugging Faceで公開されており、Apple Silicon向けのMLX統合やDockerサーバーも提供されています。

出典：Hugging Face

清華大学発IndexCache、長文LLM推論を最大1.82倍高速化

2026年03月27日 GitHub DeepSeek 推論パッチエージェントプロンプトコンテキストベンチマークトランスフォーマー RAG

スパース注意の課題

自己注意機構の二乗計算量が壁

DSAのインデクサ自体に冗長計算が残存

長文プロンプトのプリフィル遅延が深刻化

IndexCacheの仕組み

隣接層間で選択トークンが70〜100%一致

少数のF層のみインデクサを実行し結果をキャッシュ

75%のインデクサ削除で精度維持

導入効果と展望

20万トークンでプリフィル1.82倍高速化

RAG等の長文処理でコスト約20%削減

詳細を見る

清華大学とZ.aiの研究チームは、スパース注意機構の冗長計算を最大75%削減する新技術IndexCacheを発表しました。20万トークンの長文コンテキストにおいて、最初のトークン生成までの時間を最大1.82倍、生成スループットを1.48倍高速化する成果を示しています。

大規模言語モデルの自己注意機構は、文脈長に対して二乗の計算量が必要となり、長文処理のボトルネックとなっていました。DeepSeek Sparse Attention（DSA）はコア注意の計算量を線形に削減しましたが、各層のインデクサモジュール自体が依然として二乗計算を行っており、長文になるほど処理時間が急増する問題が残っていました。

研究チームは、DSAモデルにおいて隣接するトランスフォーマー層間でインデクサが選択するトークンの70〜100%が共通であることを発見しました。この冗長性を活用し、少数の「F層」でのみインデクサを実行して結果をキャッシュし、残りの「S層」ではキャッシュを再利用する手法を開発しました。

GLM-4.7 Flash（300億パラメータ）での実験では、75%のインデクサを削除してもプリフィル遅延が19.5秒から10.7秒に短縮されました。推論品質も維持され、長文ベンチマークでは原版とほぼ同等のスコアを記録しています。7440億パラメータのGLM-5でも10万トークン超で1.3倍以上の高速化が確認されました。

企業導入においては、RAGや文書分析、エージェントパイプラインなどの長文処理で約20%のコスト削減が見込まれます。vLLMやSGLang向けのオープンソースパッチがGitHubで公開されており、既存の推論基盤に最小限の設定変更で統合可能です。研究チームは、将来のモデル設計において推論効率が設計段階から考慮される方向性を示唆しています。

出典：VentureBeat

Mistral AIが音声合成モデルをオープンウェイトで無償公開

2026年03月26日オープンウェイトリスクハードウェアコンプライアンス音声米国欧州医療エージェントトランスフォーマー Mistral ElevenLabs

モデルの技術的特徴

30億パラメータでスマホ動作可能

初音声まで90ミリ秒の低遅延

リアルタイムの6倍速で音声生成

量子化時わずか3GBのRAM消費

9言語対応で5秒の音声で声質複製

競合との差別化戦略

ElevenLabs比で約70%の選好率

オープンウェイトで完全自社運用可能

音声データの主権を企業側に確保

企業向けAI基盤の完成

音声認識から合成まで一気通貫パイプライン

Forge・AI Studioと統合しフルスタック提供

年間売上10億ドル超えの見通し

詳細を見る

Mistral AIは2026年3月26日、企業向けテキスト音声合成モデル「Voxtral TTS」をオープンウェイトで公開しました。パリ拠点の同社は、競合他社がAPIベースの従量課金モデルを採用する中、モデルの重みを無償提供し、企業が自社サーバーやスマートフォン上で自由に運用できる方針を打ち出しています。

技術面では、34億パラメータのTransformerデコーダ、3.9億パラメータのフローマッチング音響変換器、3億パラメータの自社開発ニューラルオーディオコーデックの3層構造を採用しています。初音声までの遅延はわずか90ミリ秒で、リアルタイムの約6倍速で音声を生成します。量子化すれば約3GBのRAMで動作し、旧型ハードウェアでもリアルタイム処理が可能です。

同社の人間評価では、ElevenLabs Flash v2.5に対して62.8%、音声カスタマイズでは69.9%の選好率を達成しました。わずか5秒の参照音声で声質を複製でき、ゼロショットの多言語クロスリンガル音声適応も実現しています。9言語に対応し、話者のアクセントや声質を保持したまま言語を切り替えられるため、多国籍企業の顧客対応や社内コミュニケーションに大きな可能性があります。

この公開は、Mistralが過去1年で構築してきた企業向けAIフルスタック戦略の集大成です。音声認識モデル「Voxtral Transcribe」、カスタマイズ基盤「Forge」、本番運用基盤「AI Studio」と組み合わせることで、外部プロバイダーに依存しない音声エージェントパイプラインが完成します。CEOのArthur Mensch氏は年間売上10億ドル超の見通しを示しています。

同社科学担当副社長のPierre Stock氏は、音声データには感情やアイデンティティが含まれ、金融・医療・政府機関にとって第三者APIへの送信はコンプライアンス上のリスクだと指摘しました。欧州ではデジタルサービスの80%以上を米国企業に依存しており、Mistralはデータ主権を重視する欧州企業の受け皿として、今後は完全エンドツーエンドの音声AIモデルへの進化を目指すとしています。

出典：VentureBeat | TechCrunch

a16zがAI特集ポッドキャストを大量公開

企業・産業への影響

SaaS崩壊リスクをAtlassian CEOが議論

ChatGPTがWeb利用でClaude30倍と判明

5兆ドル規模の未公開テック市場を分析

医療 AI導入で臨床現場の採用率向上

国防とAGIの最前線

国防総省が応用AIを最優先技術に指定

Palantir CEO がAI軍拡競争を警告

LLMとAGIの間に因果推論の壁

軍の電力インフラ刷新が急務に

創業者とメディア戦略

ファウンダーモードの功罪を検証

a16zが攻めのメディア戦略を公開

詳細を見る

a16z（アンドリーセン・ホロウィッツ）は、自社ポッドキャスト「The a16z Show」でAIが産業・国防・医療・消費者市場に与える影響を多角的に取り上げる特集シリーズを一斉公開しました。投資家・起業家・政府関係者が登壇し、各分野の最前線を語っています。

AtlassianのCEOマイク・キャノンブルックスは、SaaS企業の株価急落について「すべてのソフトウェア企業が同じAIリスクに直面しているわけではない」と指摘しました。記録型からプロセス型へのシフトと、エンタープライズワークフローにおけるAIエージェントの信頼構築が鍵だと述べています。

消費者AI市場では、ChatGPTがウェブ利用でClaudeの30倍の規模を維持していることが判明しました。a16zのオリビア・ムーアは、3大プラットフォームがそれぞれ異なるユーザー層に特化しつつあり、メモリ機能が最も過小評価されている機能だと分析しています。

国防分野では、エミール・マイケル国防次官が技術優先分野を14から6に絞り込み、応用AIを第1位に据えたことを明かしました。前政権下で締結された商用AI契約がベンダーロック危機を生み、現役の軍事作戦にリスクをもたらしていた経緯も初めて詳細に語られています。

AGI研究に関しては、コロンビア大学のヴィシャル・ミスラがトランスフォーマーの内部動作を数学的に解明した最新研究を紹介しました。LLMはパターンマッチングに留まっており、AGI到達には訓練後も学習を続ける能力と因果関係の理解が不可欠だと指摘しています。

MS Research が問う「AIは本当に知的か」脳との根本的差異

2026年03月23日マイクロソフト GPU エネルギートランスフォーマー

トランスフォーマーの本質

注意機構がトークン間関係を学習

フィードフォワード層に知識を蓄積

LLMは無損失圧縮器として機能

入力の複雑さに関わらず一定計算量を消費

脳の分散アーキテクチャ

10万個の皮質コラムが並列処理

4日でシナプスの30%が入れ替わる

12ワットで70兆シナプスを駆動

感覚運動ループで常時予測・学習を実行

知能の定義と今後の展望

LLMは凸凹な知能を持つと評価

3歳児の継続学習能力はLLMに欠如

分散型コラムの大規模化が超知能への道筋

詳細を見る

Microsoft ResearchのDoug Burger氏が新ポッドキャスト「The Shape of Things to Come」を開始し、第1回では同社研究員のNicolò Fusi氏とNumentaのSubutai Ahmad氏を招き、現在のAIシステムが本当に知的かを議論しました。

トランスフォーマーの仕組みについてFusi氏は、注意層がトークン間の関係性を把握し、フィードフォワード層が知識を格納する二層構造だと説明しました。さらにLLMを情報理論的な無損失圧縮器と捉える見方を示し、より良い生成モデルの構築は最適な圧縮器の探索と等価であると主張しました。

Ahmad氏は脳の千脳理論を解説し、大脳新皮質には約10万個の皮質コラムが存在し、それぞれが独立した感覚運動処理システムとして完全な世界モデルを構築していると述べました。成体マウスの研究では4日ごとにシナプスの30%が入れ替わることが判明しており、脳は投機的に新しい接続を形成し不要なものを刈り込む継続学習を行っています。

効率性の面では、脳はわずか約12ワットで70兆のシナプスを動かしている一方、同規模のパラメータを持つモデルをGPUで動かすとメガワット級の電力が必要になるとAhmad氏は指摘しました。ニューロンの活動は常時わずか1%で、接続も1%しか使われておらず、極めてスパースな表現が省エネの鍵となっています。

Fusi氏はLLMを「既に知的だが凸凹な知能」と評価する一方、Ahmad氏は3歳児が持つ好奇心と継続学習能力がLLMには欠けていると反論しました。Burger氏は小型の「デジタル皮質コラム」を大量に配置し感覚運動ループで結合する構想を提示し、Ahmad氏はそれこそが超知能システム構築の道筋だが、現在のアプローチとは根本的に異なると結論づけました。

出典：Microsoft公式

Amazon、Alexa搭載スマートフォン再参入を計画

2026年03月20日マイクロソフト Amazon Apple サムスン ChatGPT App Store アシスタント広告デザイン専門家ハードウェアオンデバイスプライバシー関税音声トランスフォーマー Alexa

端末の概要

コードネーム「Transformer」

Alexa+AIアシスタント中心設計

Light Phoneから着想の簡素設計

従来型アプリストア不要の可能性

ミニアプリ方式を検討中

課題と懸念

Apple・Samsung独占市場への挑戦

プライバシー問題の根深い歴史

関税・供給網混乱によるコスト増大

詳細を見る

AmazonがFire Phone撤退から10年以上を経て、Alexa+AIアシスタントを中核に据えた新型スマートフォンの開発を進めていることが、Reutersの報道で明らかになりました。コードネーム「Transformer」と呼ばれる同端末は、社内のZeroOneグループが開発を主導しています。

開発チームを率いるのは、MicrosoftでZuneやXboxを手がけたJ・アラード氏です。チームはスマートフォンと「ダムフォン」の両方のデザインを検討しており、白黒ディスプレイとアプリストア非搭載が特徴のミニマリスト端末Light Phoneからインスピレーションを得ているとされます。

2014年に発売された初代Fire Phoneはアプリ不足と低調な売上により1年で撤退に追い込まれました。今回はChatGPTのようなミニアプリ方式を採用し、従来型アプリストアへの依存を回避する戦略が検討されています。AIが生成するUIにより、アプリそのものが不要になる可能性も示唆されています。

市場アナリストからは厳しい見方も出ています。IDCのジェロニモ副社長は「ハードウェアでAppleやSamsungに対抗するのは不可能」と指摘し、メモリ危機や関税による製造コスト上昇も懸念材料に挙げました。一方で、Alexa+を搭載した常時携帯型のコンパニオンデバイスとしての可能性には一定の評価を示しています。

プライバシー面では、Amazonがデジタル権利ランキングで下位に位置し、Alexa 音声データの広告利用が過去に指摘されている点が大きな課題です。専門家は、スマートフォン参入によりデータ収集の規模が飛躍的に拡大し、広告事業強化の手段となる可能性を警告しています。発売時期や価格は未定で、計画自体が中止される可能性も残されています。

出典：The Verge | WIRED

Mamba 3がTransformerを約4%上回る新アーキテクチャとして公開

2026年03月17日 NVIDIA エコシステムワークフロー推論 GPU ハードウェアエージェントコンテキストベンチマークトランスフォーマー

技術的な3つの革新

状態サイズ半減で同等精度を実現

複素数値SSMで推論能力向上

MIMO方式でGPU稼働率を最大化

Apache 2.0で商用利用可能

企業への影響

推論スループットが実質2倍に

エージェント型ワークフローに最適化

ハイブリッド構成が主流へ

量子化やICLに課題も残存

詳細を見る

カーネギーメロン大学のAlbert Gu氏とプリンストン大学のTri Dao氏らの研究チームが、新たなAIアーキテクチャ「Mamba 3」をApache 2.0ライセンスのオープンソースとして公開しました。Transformer対比で約4%の言語モデリング性能向上を達成しています。

Mamba 3は状態空間モデル（SSM）の最新版で、従来のTransformerが抱える二次計算量と線形メモリ要求の課題を解決します。前世代のMamba 2が学習速度の最適化に注力したのに対し、Mamba 3は「推論ファースト」の設計哲学を採用し、GPUの遊休時間を最小化する構造となっています。

技術面では3つの革新が柱です。第一に指数台形離散化により2次精度の近似を実現。第二に複素数値SSMと「RoPEトリック」で、従来不可能だったパリティ判定などの論理推論タスクを解決。第三にMIMO方式により演算強度を最大4倍に引き上げ、メモリ律速の推論フェーズでもGPUの計算コアをフル活用します。

企業にとっての最大の利点は総保有コストの削減です。15億パラメータ規模でベンチマーク平均精度57.6%を達成し、Transformerを2.2ポイント上回りました。状態サイズを半減しながら同等の予測品質を維持するため、同一ハードウェアで推論スループットが実質2倍になります。リアルタイムエージェントや長文コンテキスト処理に特に有効です。

ただし課題も残ります。Transformer エコシステムの成熟度には及ばず、量子化では標準的な4ビット手法で精度が大幅低下する問題があります。またインコンテキスト学習ではAttention機構に劣る面もあり、業界はNvidiaのNemotron-3のようなMambaとAttentionを組み合わせたハイブリッドアーキテクチャへ収束しつつあります。

出典：VentureBeat

NVIDIA、40億パラメータの軽量AI「Nemotron 3 Nano 4B」公開

2026年03月17日 NVIDIA Llama 推論強化学習ハルシネーション GPU プライバシーデプロイトランスフォーマー教師 Hugging Face

モデルの特徴

Mamba-Transformer混合構造採用

40億パラメータでエッジ動作対応

指示追従性能で同クラス最高水準

VRAM使用量が同クラス最小

圧縮と学習手法

9BモデルからNemotron Elasticで圧縮

2段階蒸留で精度回復を実現

3段階強化学習でツール使用を強化

FP8・Q4_K_M量子化で効率向上

詳細を見る

NVIDIAは2026年3月17日、40億パラメータの軽量言語モデル「Nemotron 3 Nano 4B」をオープンソースで公開しました。Mamba-Transformer混合アーキテクチャを採用し、エッジデバイスでの高効率な推論を実現するモデルです。

同モデルはJetson ThorやJetson Orin Nano、DGX Spark、RTX GPUなど幅広いNVIDIAプラットフォームで動作します。低VRAM環境でも高速な応答が可能で、データプライバシーの確保と柔軟なデプロイを両立しています。

開発にはNemotron Elasticフレームワークが用いられ、9Bパラメータの親モデルから構造化プルーニングと知識蒸留により4Bモデルへ圧縮されました。ルーターが自動的に最適な枝刈り構成を決定し、従来手法より低コストで高精度なモデルを実現しています。

学習では教師あり微調整に続き、指示追従とツール呼び出しに特化した3段階の強化学習パイプラインを適用しました。推論時の思考なしでもタスク解決に優れ、ハルシネーション回避性能も高い水準を達成しています。

量子化ではFP8版で最大1.8倍のレイテンシ改善を達成し、Q4_K_M GGUF版はJetson Orin Nano 8GBで毎秒18トークンを出力します。Transformers、vLLM、TRT-LLM、Llama.cppなど主要推論エンジンに対応し、Hugging Faceで公開中です。

出典：Hugging Face

H Company、高スループット型PC操作AIモデルHolotron-12Bを公開

2026年03月17日 NVIDIA 推論 GPU 画像エージェントコンテキストベンチマークトランスフォーマー教師 Hugging Face Computer Use

推論性能の飛躍

SSMハイブリッド構造を採用

H100単体で8.9kトークン/秒達成

Holo2-8B比で2倍超のスループット

KVキャッシュ不要でメモリ効率向上

エージェント性能

WebVoyagerスコア35.1%→80.5%に向上

UI操作・画面理解の精度大幅改善

NVIDIA Nemotronベースを微調整

次世代Nemotron 3 Omniも予告

詳細を見る

H Companyは2026年3月17日、NVIDIAのNemotron-Nano-2 VLモデルをベースにしたマルチモーダルコンピュータ操作エージェントモデル「Holotron-12B」をHugging Faceで公開しました。本モデルは画面認識・操作に特化し、量産環境での高スループット推論を目指して開発されたものです。

Holotron-12Bの推論効率を支えるのは、状態空間モデル（SSM）とアテンション機構のハイブリッドアーキテクチャです。従来のTransformerが抱える二次計算コストを回避し、長いコンテキストや複数画像を含むエージェント的ワークロードで優れたスケーラビリティを実現しています。

ベンチマーク評価では、WebVoyagerスコアがベースモデルの35.1%から80.5%へと大幅に向上しました。H100 GPU1枚でvLLMを使用した実験では、同時接続100の条件下で8.9kトークン/秒のスループットを記録し、前モデルHolo2-8Bの5.1kトークン/秒を大きく上回りました。

学習は2段階で実施されました。NVIDIAのNemotron-Nano-12B-v2-VLを起点に、H Company独自の画面理解・ナビゲーションデータで教師あり微調整を行い、約140億トークンで最終チェックポイントを構築しています。ライセンスはNVIDIA Open Model Licenseで公開されています。

今後の展開として、NVIDIAが同日発表したNemotron 3 Omniをベースとした次世代モデルの開発も予告されました。SSM-AttentionとMoEアーキテクチャを活用し、企業向けの大規模自律型コンピュータ操作への展開を目指すとしています。

出典：Hugging Face

Google DeepMind、アフリカ向け高度AI教育を無償展開

2026年03月17日 Google 専門家ファインチューニングトランスフォーマー Google DeepMind

カリキュラムの特徴

生成AIモデルの実践的構築演習

UCLと共同開発の無償講座

Transformerの深い技術理解を提供

自習・大学講義の両形式に対応

アフリカ展開の背景

世界人口の20%だがAI研究貢献は1.8%

AIMSと連携し現地文脈に最適化

Google.orgが400万ドルを拠出

講師育成プログラムを本格始動

詳細を見る

Google DeepMindは、アフリカの次世代技術者を対象とした高度AI教育プログラム「AI Research Foundations」の拡充を発表しました。University College Londonの教育専門家と共同開発された本カリキュラムは、Google Skillsプラットフォームで無償提供されます。

本プログラムはAIリテラシーの入門にとどまらず、生成言語モデルやTransformerを実際に構築・ファインチューニングする実践的内容を提供します。受講者は言語モデルをゼロから構築する経験を通じ、最先端AI研究に必要な基盤スキルを習得できます。

アフリカは世界人口の約20%を占めるにもかかわらず、AI研究への貢献はわずか1.8%にとどまっています。この格差を埋めるため、アフリカ数理科学研究所（AIMS）の専門家と協力し、大陸固有の研究ユースケースを取り入れたローカライズを実施しました。

Google.orgはFATE Foundationに400万ドルの資金を提供し、AIMSとの連携でオンラインカリキュラムをアフリカの教室に展開します。専門の講師ツールキットや「トレイン・ザ・トレーナー」プログラムにより、現地教育者の指導力強化を図ります。

本取り組みは責任あるイノベーションの原則に基づき設計されており、アフリカの研究者が自らのコミュニティにとって重要な課題にAIを活用できるよう支援します。カリキュラムはアフリカ向けに最適化されていますが、世界中の学習者が無償でアクセス可能です。

出典：Google公式

DataRobotがNVIDIAと協業しAIエージェント基盤を強化

2026年03月16日 NVIDIA 推論 GPU ハードウェア認証エージェントコンテキストベンチマークトランスフォーマー RAG

統合プラットフォーム

Nemotron 3 Superをワンクリック展開

GPU自動最適化で推論環境を構築

思考予算調整でコスト14倍削減も可能

マルチテナント制御で複数チーム同時利用

ガバナンスと認証

Okta連携でエージェントにID付与

静的APIキーから短命トークンへ移行

EU AI Act等の規制準拠を自動化

ハードウェア基盤

RTX PRO 4500を推論エンジンとして検証済み

32GB VRAMでオンプレミス展開にも対応

詳細を見る

DataRobotは2026年3月、NVIDIAと共同開発したAgent Workforce Platformにおいて、大規模言語モデル「Nemotron 3 Super」のワンクリック展開機能を発表しました。企業がAIエージェントを本番環境で安全に運用するための統合基盤を提供します。

Nemotron 3 Superは1200億パラメータのハイブリッドMamba-Transformerモデルで、100万トークンのコンテキストウィンドウを備えています。DataRobotのプラットフォームでは、GPU構成の自動推奨、監視・アクセス制御の即時有効化、チーム別クォータ管理が標準で組み込まれており、展開直後から運用可能な状態になります。

コスト管理面では、思考予算の調整により同一モデルで精度とコストのトレードオフを制御できます。金融推論ベンチマークでは、最高設定で約86%の精度に対し、最低設定でも約74%を維持しつつトークン消費を14分の1に抑えられることが実証されました。

ガバナンス面では、Oktaとの統合により、AIエージェントを企業ディレクトリ上の独立したIDとして管理する仕組みを実現しました。従来の共有APIキーによる認証では、非決定的なエージェントの行動追跡や即時無効化が困難でしたが、ID基盤型ガバナンスにより人間と同一の管理体系でエージェントを統制できます。

ハードウェア面では、NVIDIA RTX PRO 4500をDataRobotプラットフォームの推論エンジンとして技術検証済みであることを発表しました。32GBのGDDR7メモリとBlackwellアーキテクチャを搭載し、リアルタイム物流最適化やRAGパイプラインなど、エージェント型ワークロードに最適化された性能を提供します。

出典：datarobot.com | datarobot.com | datarobot.com

NVIDIA、1200億パラメータの新モデルNemotron 3 Superを公開

2026年03月11日 Google NVIDIA Perplexity オラクル AWS Coderabbit 検索専門家推論オープンウェイト GPU クラウドセキュリティエージェントコンテキストトランスフォーマー Palantir

モデルの技術革新

MambaとTransformerのハイブリッド構造採用

120Bパラメータ中12Bのみ稼働するMoE方式

100万トークンのコンテキストウィンドウ実現

前世代比最大5倍のスループット向上

企業導入と展開

PerplexityやCodeRabbitなどが即日統合

Siemens・Palantirが製造・サイバー防衛に活用

オープンウェイトで商用利用可能なライセンス

Google Cloud・OCI・AWS等主要クラウドで提供

詳細を見る

NVIDIAは2026年3月11日、エージェントAI向け新モデル「Nemotron 3 Super」を公開しました。1200億パラメータのうち推論時に稼働するのは120億のみで、前世代比最大5倍のスループットと2倍の精度向上を実現しています。

本モデルはMamba-2層とTransformer層を組み合わせたハイブリッド構造を採用しています。Mamba層が線形計算量で高速処理を担い、Transformer層が高精度な情報検索を補完することで、100万トークンのコンテキストウィンドウを効率的に実現しました。

新技術「Latent MoE」は、トークンを圧縮空間に射影してからエキスパートに振り分けることで、同じ計算コストで4倍の専門家を活用できます。さらにマルチトークン予測により推論速度を最大3倍に高速化しています。

Blackwell GPUプラットフォームではNVFP4精度で動作し、Hopper世代のFP8比で最大4倍高速な推論を精度損失なく達成しました。DeepResearch Benchのリーダーボードでは1位を獲得しています。

Perplexity、CodeRabbit、Greptileなどの企業が即日統合を開始し、Siemens、Palantir、Cadenceなどの大手企業も製造・サイバーセキュリティ分野での活用を進めています。モデルはオープンウェイトで公開され、10兆トークン超の学習データとレシピも併せて提供されました。

Google Cloud、Oracle Cloud、AWS、Azureなど主要クラウドに加え、Dell AI FactoryやHPEによるオンプレミス展開にも対応します。NVIDIA NIMマイクロサービスとしてパッケージ化されており、企業は柔軟な環境で商用利用が可能です。

出典：NVIDIA公式 | VentureBeat

Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

2026年03月09日 Qwen エコシステム GPU ベンチマークトランスフォーマー Hugging Face TRL Snowflake

技術の仕組み

アテンションヘッドを複数GPUに分散

All-to-All通信で通信量を1/Nに削減

Ring Attentionより低レイテンシで効率的

FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ

Transformers Trainerが損失集計を自動処理

TRL SFTTrainerでSFT最適化に対応

Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能

64K時にスループットが3.7倍向上

8K時はDP=4と同等メモリ消費

詳細を見る

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列（SP）をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン（66GB）まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4（リリース待ち）の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。

出典：Hugging Face

IBMがGranite 4.0 1B Speechを公開、エッジ向け多言語音声認識で首位

2026年03月09日推論リスク音声日本ベンチマークトランスフォーマー Hugging Face

モデルの特徴

パラメータ数を前世代比半減

英語転写精度が前世代を上回る

投機的デコードで推論を高速化

日本語を含む6言語に対応

キーワードバイアシング機能を新搭載

性能と展開

OpenASRリーダーボードで1位獲得

パラメータ数以上の翻訳精度を実現

Apache 2.0ライセンスで公開

Granite Guardianとの組み合わせ推奨

詳細を見る

IBMは2026年3月9日、エッジデバイス向け音声言語モデル「Granite 4.0 1B Speech」をHugging Faceで公開した。多言語音声認識（ASR）と双方向音声翻訳（AST）に対応し、英語・仏語・独語・西語・葡語・日本語の6言語をサポートする。

前世代モデル「granite-speech-3.3-2b」と比べてパラメータ数を半分の約10億に削減しながら、英語転写の単語誤り率（WER）は改善した。投機的デコードの採用により推論速度も向上しており、リソースが限られたデバイスでの実用展開を想定した設計となっている。

今回の新機能として、日本語ASRサポートとキーワードバイアシングが追加された。キーワードバイアシングは固有名詞や略語の認識精度を高める機能で、コミュニティから要望の多かった機能を優先実装している。

性能面では、Hugging Faceが運営するOpenASRリーダーボードで1位を獲得。複数の標準ベンチマークにおいて、はるかにパラメータ数の多いモデルと同等以上の精度を達成しており、小規模モデルとしての競争力を示した。

モデルはApache 2.0ライセンスで公開され、transformersおよびvLLMでネイティブサポートされる。本番環境ではリスク検出のためにGranite Guardianとの組み合わせが推奨されており、アーキテクチャ詳細や学習データはモデルカードで確認できる。

出典：Hugging Face

HuggingFace、LeRobot v0.5.0でヒューマノイド対応と6つの新ポリシーを追加

2026年03月09日 NVIDIA エコシステムシミュレーション推論 GPU ハードウェアポリシー画像ロボットヒューマノイドコーディングデプロイロボティクストランスフォーマー Hugging Face Gemma Arm LoRA

ハードウェア拡張

Unitree G1ヒューマノイド初対応

全身協調制御（WBC）の実現

OpenArm ロボットアームの統合

CANバスモーター対応で高性能化

AIポリシーと高速化

Pi0-FAST自己回帰VLAの導入

Real-Time Chunkingで推論の応答性向上

LoRA/PEFTで大規模VLAの効率微調整

画像学習10倍高速化を実現

エコシステム整備

EnvHubでHub上のシミュレーション環境を直接利用

NVIDIA IsaacLabとのGPU並列学習統合

サードパーティポリシープラグイン対応

ICLR 2026採択で学術的評価を獲得

詳細を見る

Hugging Faceは2026年3月にオープンソースロボット学習フレームワーク「LeRobot」のv0.5.0をリリースした。同バージョンでは初のヒューマノイドロボット対応や6つの新ポリシー追加、データパイプラインの大幅な高速化など、あらゆる次元でのスケールアップが実現されています。

最大のハードウェア追加はUnitree G1ヒューマノイドの全面サポートです。歩行・ナビゲーション・物体操作・遠隔操作に加え、全身協調制御（WBC）により移動と操作を同時実行できる。これはLeRobotが卓上アームを超えた汎用ロボティクスへ踏み出す重要な一歩となっています。

ポリシー面ではPi0-FASTが注目されます。Gemma 300Mベースの自己回帰型アクションエキスパートを採用し、FASToトークン化によって離散化されたアクション列を生成します。また推論技術のReal-Time Chunking（RTC）は、フローマッチングポリシーの応答性を劇的に改善し、実世界デプロイでのレイテンシ問題を解消します。

データセットパイプラインではストリーミングビデオエンコーディングの導入により、エピソード記録後のエンコード待ち時間がゼロになりました。さらに画像学習が最大10倍、エンコードが3倍高速化されており、データ収集からモデル訓練までのサイクルが大幅に短縮されています。

コードベース面ではPython 3.12+とTransformers v5への移行が完了し、サードパーティポリシープラグインシステムの導入でエコシステムの拡張性が向上しました。EnvHubとNVIDIA IsaacLab-Arenaの統合により、シミュレーション環境の共有・活用も容易になっています。同論文はICLR 2026にも採択されており、学術コミュニティからの評価も高まっています。

出典：Hugging Face

Photoroom、画像生成モデルを24時間・約22万円で訓練する手法を公開

2026年03月03日 GitHub Gemini 画像生成ファインチューニングパッチ GPU 画像プロンプトトランスフォーマー教師 Pixel

訓練レシピの全体像

H200 32台で24時間の速習訓練

総コスト約1500ドルに抑制

ピクセル空間で直接訓練しVAE不要に

TREADトークンルーティングで計算削減

品質向上の技術要素

LPIPSとDINOの知覚損失を併用

REPAでDINOv3と表現整合

オプティマイザにMuonを採用

コードとレシピをOSS公開

詳細を見る

Photoroomは2026年3月3日、テキストから画像を生成する拡散モデルを24時間・約1500ドル（約22万円）の計算予算で訓練する手法「PRX Part 3」を公開しました。H200 GPU 32台を使用し、コードもGitHubでオープンソース化しています。

最大の特徴はピクセル空間での直接訓練です。従来必要だったVAE（変分オートエンコーダ）を排除し、パッチサイズ32と256次元のボトルネック層で系列長を制御します。512pxで訓練を開始し、1024pxへファインチューニングする2段階方式を採用しています。

品質向上のため知覚損失を2種類導入しています。LPIPSは低レベルの知覚的類似性を、DINOv2ベースの損失は意味的な信号を捉えます。プール済み画像全体に適用し、全ノイズレベルで計算する独自の工夫が加えられています。

計算効率の面ではTREADによるトークンルーティングを採用し、50%のトークンをTransformerブロックの大部分でスキップさせます。またREPAでDINOv3教師モデルとの表現整合を行い、収束を加速させています。オプティマイザにはMuonを使用しAdamを上回る性能を確認しています。

訓練データは合成データセット3種（計約870万枚）を使用し、Gemini 1.5でキャプションを再生成しています。生成品質にはまだ改善余地があるものの、プロンプト追従性や美的一貫性は高く、構造的な欠陥ではなくデータ多様性の不足が主な課題と分析しています。

出典：Hugging Face

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

2026年03月02日 OpenAI Gemini Qwen gpt-oss エンジニア推論ファインチューニングクラウド品質保証動画リファクタリングベンチマークオープンソースモデルトランスフォーマー Hugging Face

小型で大型超えの性能

9BがOpenAI 120Bを上回る推論性能

ノートPC上でローカル実行可能

Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化

ネイティブマルチモーダル対応

0.8B〜9Bの4モデル構成

企業への影響

エッジ推論でクラウドAPI不要に

文書解析・コード生成など業務自動化に対応

詳細を見る

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデル「Qwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQA ベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIのgpt-oss-120B（80.1）を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減とデータ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

出典：VentureBeat

Hugging FaceがMoEの仕組みを詳解

2026年02月26日 DeepSeek ネットワークエンジニア専門家トランスフォーマー Hugging Face Mistral

MoEの技術概要

複数の専門家モデルを状況に応じて選択的活用

全パラメータを常時使わず計算効率を向上

DeepSeek・Mistralが採用する主流アーキテクチャ

スケーリングコストを抜本的に削減

詳細を見る

Hugging FaceのブログがTransformerにおけるMixture of Experts（MoE）アーキテクチャを詳細解説しました。MoEは複数の「専門家」ネットワークを持ち、入力に応じて最適な専門家を選択して処理する仕組みです。

MoEはDeepSeekやMistralなど最新の高効率LLMが採用している主流アーキテクチャで、同等の品質をより低い計算コストで実現します。エンジニアがAIシステムを設計・選択する際の必須知識です。

出典：Hugging Face

研究AIラボ「Flapping Airplanes」が過激な実験路線を宣言

2026年02月16日創業者資金調達エージェントトランスフォーマー Intel

ラボの方針

「全く異なるアプローチ」を試みると宣言

若い創業者チームによる研究第一主義

収益化より根本的探求を優先

新興研究ラボの勃興トレンドを代表

詳細を見る

TechCrunchはAIの研究に特化した新興ラボ「Flapping Airplanes」の創業者にインタビューし、その研究哲学を紹介しました。同ラボは「本当にラジカルに異なるアプローチを試みたい」という姿勢を前面に出しています。

創業チームは若く好奇心旺盛であり、大手AIラボのような製品ロードマップや四半期ターゲットよりも基礎研究の自由度を重視していると語っています。

2025〜2026年にかけて、Safe Superintelligence、Karpathy AI、Flapping Airplanesなど多くの研究重点型新興ラボが設立されており、フロンティアAI研究が大企業独占から多極化する兆候が見られます。

同ラボは具体的な研究内容を公開していませんが、現在主流のTransformerアーキテクチャの根本的代替や、エージェント自律性の新しいアプローチを模索しているとみられています。

「収益化より探求」という姿勢が持続可能かどうかは不明ですが、資金調達環境が豊富な現在においては、研究先行型ラボが次のブレークスルーを生む可能性は十分あります。

出典：TechCrunch

Differential Transformer V2がアテンション機構の効率を大幅改善

2026年01月20日検索トランスフォーマー RAG

技術的革新

差分アテンションの第2世代

ノイズ除去精度が向上

長文脈での性能が改善

計算効率も向上している

既存モデルにも適用可能

研究・応用への影響

Transformerアーキテクチャを刷新

RAGの精度向上に応用可能

長文書処理の実用性が高まる

コスト削減効果が期待される

GPT後継モデルへの採用可能性

詳細を見る

Differential Transformer V2が発表されました。この研究は差分アテンション機構の第2世代として、従来のTransformerよりも効率的かつ精度の高いアテンション計算を実現します。

差分アテンションは2つのアテンション出力の差分を取ることでノイズを除去する仕組みです。V2ではこの機構がさらに洗練され、長文脈での精度が大幅に向上しています。

RAG(検索拡張生成)や長文書の要約・分析など、実用的なユースケースでの性能向上が期待されます。計算コストも改善されており、実装上の魅力があります。

LLMのアーキテクチャ研究は競争が激しく、このようなアテンション効率化の成果は次世代モデル開発に直接影響します。

出典：Hugging Face

Yann LeCun「知能の本質は学習であり記憶ではない」

2026年01月07日 Meta AGI ロボティクス投資トランスフォーマー

LeCunのAI哲学と批判

LeCunがFT紙のインタビューでLLMの限界を再批判

「現在のLLMは本当の知能ではない」との持論を展開

人間の学習メカニズムとの根本的な違いを指摘

World Modelの重要性を改めて強調

Metaの次世代AIアーキテクチャの方向性を示唆

AGI達成にはLLMを超えたアプローチが必要と主張

研究コミュニティへの影響

Transformer以外のアーキテクチャ研究に注目

持続的な学習・適応型AIの重要性が再評価

感覚的学習・世界モデル研究への投資が増加

産業界でのLeCun批判への対応と議論が活発化

Meta AI Researchの独自研究路線が明確化

AGIへの道筋に複数の競合するビジョンが共存

詳細を見る

Meta AIの研究責任者Yann LeCunはFinancial Timesのインタビューで、「知能の本質は学習にある、記憶にあるのではない」という持論を展開しました。現在主流のLLMは次のトークンを予測することで動作するが、これは人間の学習・理解とは根本的に異なると主張しています。

LeCunはWorld Modelと呼ばれる概念を強調しており、真の知能は世界の仕組みを内部的にモデル化し、その理解に基づいて行動計画を立てる能力を必要とすると言います。感覚と行動を通じた学習がAGI達成の鍵であるという独自のビジョンを持続的に発信しています。

LeCunの見解は業界において常に論争を引き起こしますが、LLM中心のアプローチへの挑戦として、ロボティクス・世界モデル・継続学習の研究コミュニティから支持を得ています。AGIへの複数のアプローチが並行して研究される2026年のAI研究の多様性を象徴する発言です。

出典：Ars Technica

NvidiaがCESでDLSS 4.5・RTX AI動画・Siemens提携を発表

2026年01月06日 NVIDIA Amazon エコシステム動画生成シミュレーション半導体 GPU クラウド動画提携トランスフォーマー GeForce NOW DLSS

CES 2026のNvidia主要発表

DLSS 4.5でMulti Frame Generationを大幅強化

新トランスフォーマーモデルで映像品質と性能を向上

G-SYNC PulsarによるゲームディスプレイのAI制御

GeForce NOWをLinuxとAmazon Fire TVに対応

RTXがLTX-2とComfyUIで4K AI動画生成を加速

SiemensのEDAツールをNvidia GPUで高速化

産業への応用拡大

EDA（電子設計自動化）分野へのGPU活用が拡大

半導体設計シミュレーションを大幅に短縮

AIワークロードの多様化でGPU需要が増加

クラウドゲーミングのエコシステムが拡充

映像生成AIがプロ・コンシューマー両市場に展開

Nvidiaのプラットフォーム戦略が多方面に浸透

詳細を見る

Nvidiaは今年のCES 2026で複数の重要発表を行いました。DLSS 4.5は新しい動的マルチフレーム生成技術と6倍マルチフレームモードを導入し、ゲームのフレームレートと画質を同時に向上させます。第2世代のトランスフォーマーモデルを採用し、従来のCNNベースのDLSSから大きく進化しています。

GeForce NOWはLinux PCとAmazon Fire TVへの対応を新たに追加し、クラウドゲーミングのアクセス可能なデバイスを拡大しました。またRTX AI動画生成では、LTX-2モデルとComfyUIの連携により、PC上での4K品質の動画生成が可能になっています。

SiemensのEDAツールとNvidiaのGPUを組み合わせる提携は、半導体設計の電子シミュレーションを劇的に高速化することを目指しています。AIチップの需要拡大とともに、設計ツールの高速化が業界全体の競争力に直結する重要な取り組みです。

出典：NVIDIA公式 | NVIDIA公式 | NVIDIA公式 | TechCrunch

Falcon H1R 7Bが7倍大きいモデルを超える推論性能を発揮

2026年01月05日 Google マイクロソフト Meta Llama 推論推論モデルデプロイベンチマークトランスフォーマー Mistral Gemma Falcon

Falcon H1Rの技術的突破

TII発のFalcon H1R 7Bが最大7倍大きいモデルを凌駕

ハイブリッドアーキテクチャがパラメータ効率を極大化

70Bクラスのモデルと同等の推論ベンチマーク達成

主にオープンソースとして公開（一部制限あり）

アラビア語特化版Falcon-H1-Arabicも同時公開

小型高性能モデルの新しい基準を打ち立てる

小型推論モデルのパラダイム転換

「より大きい＝より賢い」神話を覆す

モデル蒸留・アーキテクチャ革新が限界を押し上げる

エッジデバイスでの高度推論が現実に

APIコストと推論速度で圧倒的優位を実現

アラビア語AIの不均衡是正に貢献

小型モデル競争（Phi・Gemma・Llama-3）が激化

詳細を見る

UAE・アブダビに拠点を置くTechnology Innovation Institute（TII）が発表したFalcon H1R 7Bは、わずか70億パラメータながら50B〜70Bクラスのモデルに匹敵する推論性能を達成した。この成果は「より大きなモデルがより賢い」という業界の常識を根本から覆す可能性を持つ。

性能の源泉はハイブリッドアーキテクチャにある。従来のTransformerとは異なる設計により、パラメータ当たりの情報密度が飛躍的に向上している。具体的な技術的詳細はまだ限定的に公開されているが、Mamba-Transformerの混合型に近い設計と見られている。

同時に発表されたFalcon-H1-Arabicは、アラビア語AIの能力向上に特化したモデルで、中東・北アフリカ地域での言語的AIアクセスの不均衡是正を目指している。英語中心のAI発展に対するバランスとして重要な取り組みだ。

実用上の意味は大きい。推論コストは概ねモデルサイズに比例するため、7Bモデルで70Bの性能が得られれば約10分の1のコストでサービスを運用できる。エッジデバイスへのデプロイも実用的な選択肢となり、オフラインAI処理の可能性が広がる。

小型高性能モデルの競争は、Microsoft Phi・Google Gemma・Meta Llama-3・Mistralなど複数の有力モデルが参戦しており、エッジAI時代の主役を巡る争いが激化している。Falcon H1Rの登場はこの競争にさらなる刺激を加えるものだ。

出典：Hugging Face | Hugging Face | VentureBeat

GemmaとHF v5が新展開を加速

2025年12月18日 Google ネットワークオンデバイス MIT エージェントトランスフォーマー Hugging Face Gemma

Gemmaの新バリアント

FunctionGemmaをエッジ公開

T5Gemma 2が長文脈対応

累計DL3億件超を達成

研究・ツールの進展

MITが学習不適を覆す実験

HF v5で設計刷新

Kaggleで5日集中講座

C2Scaleで癌研究応用

詳細を見る

GoogleはGemmaモデルの新バリアント「FunctionGemma」を公開しました。エッジデバイス上でのカスタム関数呼び出しに特化した軽量設計で、オフライン環境での活用が広がります。

「T5Gemma 2」はGemma 3基盤のエンコーダー・デコーダーモデルで、マルチモーダル処理と長文脈への対応を初めて実現しており、文書分類や翻訳タスクでの活用が期待されています。

MITのCSAIL研究チームは、これまで学習不適とされてきたニューラルネットワークも短期間のガイダンスで効果的に学習できることを実験的に実証し、従来の通説を覆しました。

Hugging FaceはTransformers v5でトークナイザーの設計を大幅に刷新し、学習済み語彙との分離によってコードのモジュール性を高め、カスタマイズと保守の容易さを向上させました。

KaggleとGoogleが共催した5日間のAIエージェント集中講座には世界中から多数の参加者が集まり、実践的なAI教育への高い需要と世界的なAI学習熱の高まりを改めて示しました。

Gemmaファミリーの累計ダウンロード数は3億件を突破しており、一般的なNLPタスクを超えて癌研究（C2Scale）など高度に専門化された科学的応用も着実に増加しています。

出典：Google公式 | Google公式 | MIT News | Hugging Face | Google公式

MITがLLM改善と視覚進化研究を発表

2025年12月17日推論強化学習 GPU ハードウェアウェアラブルエネルギーロボットドローン MIT エージェントベンチマークトランスフォーマー

新位置符号化手法

MIT・IBM共同開発のPaTH Attentionが状態追跡能力を向上

RoPEに代わるデータ依存型の動的位置符号化を実現

推論・長文脈・言語モデリングのベンチマークで優位

GPU高速処理に対応したハードウェア効率アルゴリズム

視覚進化サンドボックス

MITがAIエージェントで視覚進化を再現するサンドボックス開発

タスクの種類が眼の構造を決定することを発見

ロボット・ドローン向けのタスク特化センサー設計に応用可能

詳細を見る

MITとMIT-IBM Watson AI Labの共同研究チームは、トランスフォーマーアーキテクチャの根本的な限界を克服する新しい位置符号化手法「PaTH Attention」をNeurIPSで発表しました。

従来のRoPE（Rotary Position Encoding）はトークン間の相対距離のみに基づく静的な回転を割り当てますが、PaTH Attentionは各トークンの内容に依存した動的変換を累積させることで、単語間の意味の変化をパスとして追跡できます。これにより状態追跡や逐次的な推論が改善されます。

実験では、PaTH Attentionが診断タスクと実世界の言語モデリングタスクの両方で既存の注意機構を上回り、数万トークンに及ぶ長文脈でも安定した性能を示しました。また「忘却トランスフォーマー（FoX）」と組み合わせた「PaTH-FoX」システムでさらに性能が向上しています。

もう一つの研究では、MITの研究者らがAIエージェントを用いて視覚系の進化を再現する計算論的フレームワークを構築し、Science Advances誌に発表しました。カメラのセンサー・レンズ・絞り・プロセッサをパラメータ化したエージェントが強化学習で世代を超えて眼を進化させます。

実験ではナビゲーションタスクでは複眼（昆虫や甲殻類のような眼）に、物体識別タスクではカメラ型の眼（虹彩と網膜を持つ眼）に進化することが分かりました。タスクの種類が眼の構造の違いを生み出す主要な要因であることが示されています。

このフレームワークはロボット・ドローン・ウェアラブルデバイス向けの新しいセンサー設計に応用できる可能性があり、エネルギー効率や製造上の制約のもとでタスク固有の最適な視覚システムを探索するための強力なツールとなり得ます。

出典：MIT News | MIT News

NvidiaがNemotron 3公開とSchedMD買収で事業拡大

2025年12月15日 NVIDIA 数学エンジニア推論強化学習事前学習事後学習リスク半導体 GPU ハードウェアコーディング中国買収コンテキストトランスフォーマー ByteDance

Nemotron 3の特徴と技術革新

ハイブリッドMoEアーキテクチャを採用

Nano・Super・Ultraの3サイズ展開

100万トークンのコンテキスト長対応

前世代比最大4倍のトークンスループット向上

学習レシピとデータセットを完全オープン公開

強化学習基盤NeMo Gymを同時リリース

Accentureら大手企業がアーリーアダプターとして参加

SchedMD買収とH200中国展開

HPC向けジョブスケジューラSlurmの開発元を買収

Slurmはオープンソースとして継続提供

H200チップの中国向け輸出が米政府承認

中国大手企業から大規模発注が殺到

H200の追加生産拡大を検討中

中国政府の輸入可否判断が今後の焦点

詳細を見る

NvidiaはNemotron 3モデルファミリーを公開しました。Nano（300億パラメータ）、Super（1000億）、Ultra（5000億）の3サイズで構成され、ハイブリッドMamba-TransformerのMoEアーキテクチャを採用しています。

Nemotron 3 Nanoは同規模モデルと比較して最大3.3倍のスループットを実現し、100万トークンのコンテキストウィンドウに対応します。推論コストの削減と精度向上を両立した設計です。

Nvidiaはモデルの重み、学習レシピ、事前学習・事後学習データセットをすべて公開しています。公開された事後学習データセットは既存の最大規模のものより2.5倍大きく、業界最大規模となります。

モデル訓練に使用した強化学習基盤NeMo Gymもオープンソースとして公開されました。数学、コーディング、ツール利用など10以上のRL環境が含まれており、開発者が独自環境を構築することも可能です。

Nvidiaはと同日、HPC向けオープンソースのワークロード管理システムSlurmを開発するSchedMDの買収を発表しました。Slurmは世界のスーパーコンピュータTop500のうち半数以上で採用されている実績ある基盤ソフトウェアです。

SchedMD買収によりNvidiaは半導体からモデル、そしてHPCソフトウェアスタックまでをカバーする垂直統合を強化します。SlurmはNvidiaのハードウェア上での最適化が進む一方、ベンダー中立性も維持されます。

米政府はNvidiaのH200チップを中国へ輸出することを承認しました。H200は前世代Hopperシリーズの最高性能GPUで、中国ではこれまで販売が制限されていました。

承認を受けてAlibabaやByteDanceなど中国大手企業がH200の大口注文を検討しており、Nvidiaは需要に応えるため生産拡大を検討しています。ただし中国政府側の輸入許可判断が依然として焦点です。

一方でNvidiaにとってのリスクも存在します。中国政府は国産チップの活用を推進しており、長期的には中国AIモデルが自国製シリコンに依存する方向へシフトする可能性があります。

出典：WIRED | VentureBeat | Hugging Face | NVIDIA公式 | TechCrunch

Hugging Faceがv5発表、PyTorch特化と相互運用性強化

2025年12月01日 OpenAI Flow 生産性エコシステム Llama エンジニア推論事前学習オンデバイスインフラトランスフォーマー Hugging Face

開発効率を高める構造改革

モデル定義をモジュール化し保守性向上

開発基盤をPyTorchへ完全一本化

実用性を極めた学習・推論

大規模な事前学習への対応を強化

OpenAI互換の推論サーバー機能導入

低精度の量子化を標準機能として統合

エコシステムをつなぐハブへ

外部推論エンジンとの連携を円滑化

ローカル実行やオンデバイス対応

詳細を見る

Hugging Faceは、AI開発のデファクトスタンダードであるライブラリの最新版「Transformers v5」を発表しました。本バージョンでは「相互運用性」と「シンプルさ」を最優先し、コード構造のモジュール化やPyTorchへのバックエンド一本化を断行。急速に拡大するAIエコシステムにおいて、エンジニアがより効率的に学習・推論を行えるよう、量子化の標準サポートや外部ツールとの連携を強化した大型アップデートです。

前バージョンのリリースから5年、Transformersは爆発的な成長を遂げました。1日あたりのインストール数は2万回から300万回へと急増し、累計ダウンロード数は12億回を突破。サポートするモデルアーキテクチャも40種類から400種類以上へと拡大しており、AI技術の民主化と普及を支える重要なインフラとしての地位を確立しています。

v5の最大の焦点は「シンプルさ」の追求です。開発チームは「コードこそが製品である」という哲学のもと、モデル定義のモジュール化を推進。複雑化していたコードベースを整理し、新しいモデルの追加や保守を容易にしました。これにより、コミュニティによる貢献プロセスが簡素化され、最新モデルへの対応速度がさらに向上します。

技術的な大きな転換点として、バックエンドをPyTorchに一本化します。TensorFlowやFlaxのサポートを縮小し、PyTorch財団との連携を深めることで、パフォーマンスと安定性を最大化します。同時に、JAXエコシステムとの互換性は維持し、多様な開発環境やニーズに応える柔軟性も確保しています。

実用面では、推論機能と量子化が大幅に強化されました。新たにOpenAI互換のAPIを持つ「transformers serve」を導入し、手軽な推論サーバー構築が可能に。また、8-bitや4-bitといった低精度モデルの量子化を「第一級市民」として扱い、リソース制約のある環境でも高性能なモデルを効率的に扱えるようになります。

最終的な目標は、あらゆるAIツールとのシームレスな連携です。UnslothやAxolotlでの学習から、vLLMやllama.cppを用いた推論・ローカル実行まで、Transformers v5はエコシステムのハブとして機能します。この高い相互運用性により、開発者は最適なツールを自由に組み合わせ、生産性を最大化できるでしょう。

出典：Hugging Face

ベゾス新AI、エージェント企業を買収し製造業革新へ

2025年11月26日専門家創業者米国資金調達買収エージェントトランスフォーマー Tesla Google DeepMind

62億ドル調達の新事業

ベゾス氏の新AI事業Project Prometheus

資金調達額は62億ドルに上る規模

製造業の自動化支援が主要な目的

高速操作AIを獲得

買収先はGeneral Agents

PC操作を代行するエージェントAIを開発

競合も認める圧倒的な処理速度が強み

超一流の人材が集結

元DeepMind等のトップ研究者が合流

Transformer論文著者らも顧問に就任

自動車や宇宙船製造への応用を視野

詳細を見る

アマゾン創業者のジェフ・ベゾス氏が設立した新AIベンチャー「Project Prometheus」が、エージェント型AI開発の「General Agents」を極秘裏に買収しました。この動きは、製造業における複雑な工程の自動化を加速させる明確な狙いがあります。

ベゾス氏とVik Bajaj氏が共同CEOを務めるこの新会社は、すでに62億ドルもの巨額資金を調達しています。コンピュータから自動車、さらには宇宙船に至るまで、幅広い製造現場を支援する高度なAIシステムの構築を目指していると報じられています。

買収されたGeneral Agentsは、PC操作を人間に代わって実行する「コンピュータ・パイロット」技術で知られます。同社の主力製品「Ace」は、競合他社が追随できないほどの圧倒的な処理速度を実現しており、その技術力がベゾス氏の野望を支える鍵となります。

今回の買収に伴い、元DeepMindやTeslaの研究者を含む100名以上の専門家が新会社に合流しました。さらに、AIの基礎技術Transformerの論文著者らもアドバイザーとして名を連ねており、業界屈指の技術者集団が形成されています。

買収後、関係者は米国の製造現場への接触を深めており、物理的な生産プロセスへのAI適用を本格化させる動きを見せています。ベゾス氏の資金力と最先端のエージェント技術が融合することで、産業界に大きなインパクトを与える可能性があります。

出典：WIRED

Google新手法、AIの記憶と継続学習の課題を解決へ

2025年11月21日 Google 推論事前学習ハードウェアインフラコンテキストトランスフォーマー

静的なAIから進化するAIへ

学習後の知識更新が困難な現状

コンテキスト外の長期記憶が欠如

多層最適化するNested Learning

新モデル「Hope」の実力

異なる速度で更新する多層メモリ

継続学習と長文脈で高精度を実現

リアルタイムな自己適応が可能に

実社会での柔軟な活用に期待

詳細を見る

Googleの研究チームは2025年11月、現在のAIモデルが抱える「記憶」と「継続学習」の限界を突破する新パラダイムNested Learningを発表しました。モデルの学習を単一ではなく多層的な最適化プロセスとして再定義し、環境に適応し続けるAIへの道を開くものです。

従来のTransformerモデルは、事前学習後は知識が固定される「静的」な存在でした。コンテキストウィンドウ（短期記憶）の容量を超えた情報は失われ、人間のように日々の経験から長期記憶を形成し、知識を更新することができない点が大きな課題でした。

この課題に対し、新手法は脳のメカニズムを模倣します。新開発されたアーキテクチャHopeは、即時的な情報から抽象的な知識まで、異なる速度で更新される複数のメモリバンクを搭載。これにより、自己参照的なループで記憶を最適化し続けます。

実証実験では、言語モデリングや複雑な推論タスクにおいて、既存のモデルを上回る精度と効率を記録しました。特に、膨大なデータの中から特定の情報を正確に見つけ出す長文脈処理において、優れたパフォーマンスを示しています。

既存のハードウェアインフラへの適応という課題は残りますが、データや環境が絶えず変化するビジネス現場において、継続的に学習するAIの価値は計り知れません。真に自律的なAIシステム実現への重要な一歩となるでしょう。

出典：VentureBeat

米国AIの優位性、オープンソース化が鍵 Databricks創業者警鐘

2025年11月14日 OpenAI Anthropic Meta DeepSeek Qwen エコシステムエンジニア創業者米国中国トランスフォーマー Databricks

米国AIが抱える危機

中国に研究で後れを取る現状

大手ラボによる技術の独占

学術界からの深刻な頭脳流出

科学者間の対話が枯渇

オープンソース化が鍵

中国のオープン戦略が脅威に

生成AIを生んだTransformerも公開論文発

自由なアイデア交換で革新を促進

民主主義とビジネスの存亡に関わる課題

詳細を見る

データ分析基盤大手Databricksの共同創業者アンディ・コンウィンスキー氏が、AI分野で中国に対抗するためには米国はオープンソース戦略に転換すべきだと警鐘を鳴らしました。同氏はCerebral Valley AI Summitにて、現在の技術独占と学術界からの頭脳流出が米国の優位性を損ない、民主主義にとって「存亡に関わる脅威」になっていると強く訴えました。

コンウィンスキー氏が指摘する問題の核心は、大手AIラボの姿勢にあります。OpenAIやMeta、Anthropicなどは画期的な技術を開発していますが、その多くはプロプライエタリ（独占的）であり、広く共有されません。さらに、高額な報酬で大学のトップ研究者を引き抜くことで、学術界での自由な知見の交換が「枯渇しつつある」と危機感を示しました。

対照的に中国では、政府がAIイノベーションのオープンソース化を奨励していると氏は分析します。DeepSeekやAlibaba傘下のQwenといった企業の研究成果が公開されることで、他の研究者や開発者がその技術を土台に新たなイノベーションを生み出す好循環が生まれる可能性があり、これが米国の脅威となり得るとの見方です。

「今日の生成AIは、公開論文で発表されたTransformerアーキテクチャから生まれた」とコンウィンスキー氏は述べ、オープンな研究の重要性を強調します。次のTransformer級のブレークスルーをどちらの国が先に生み出すかが、今後のAI覇権を決定づける重要な要素となるでしょう。

現状を「トウモロコシの種籾を食べているようなものだ」と表現し、イノベーションの源泉が枯渇すれば、5年後には大手AIラボ自身も競争力を失うと警告。米国がAI分野でトップを維持するためには、オープンなエコシステムの再構築が急務であると結論づけました。

出典：TechCrunch

MITとIBM、次世代AIの信頼・効率・知識基盤を強化

2025年11月06日検索 AI活用デザイン学生推論強化学習画像コーディング MIT トランスフォーマー

AIの信頼性を高める

LLM回答の不確実性を精密に評価

ナレッジグラフ連携で幻覚を抑制

強化学習でデータ検索を効率化

計算効率と表現力の向上

Transformerの計算コストを削減

線形アテンションで処理を高速化

新方式の位置エンコーディングで表現力を向上

視覚データの高度な活用

合成チャートでVLM学習を促進

画像から描画コードを自動生成・改良

詳細を見る

マサチューセッツ工科大学（MIT）とIBMの研究者らが、AIの信頼性、効率性、知識に基づいた推論能力を向上させる複数の研究プロジェクトを推進しています。博士課程の学生が中心となり、LLMの回答の不確実性を評価する新手法や、計算コストを削減する次世代アーキテクチャなどを開発。これらの成果は、より実用的で価値の高いAIモデルを様々な分野へ展開することを目的としています。

企業のAI活用における最大の課題は、その回答が信頼できるかという点です。これに対し、研究チームはLLMの回答の不確実性を評価する新たな手法を開発しました。これは評価用モデル（プローブ）自体の信頼性を測り、誤った警告を防ぎます。さらに、外部のナレッジグラフと連携させ、AIの「幻覚」を抑制する強化学習フレームワークも構築しています。

大規模モデルの運用には膨大な計算コストが伴います。特にTransformerモデルは、入力データが長くなるほど計算量が爆発的に増加する課題を抱えていました。研究チームは線形アテンションなどの技術を採用することでこの問題を解決。より少ない計算資源で、より長いシーケンスを高速に処理できる次世代アーキテクチャの開発を進めています。

人間のように視覚情報を深く理解するAIも研究対象です。あるチームは、グラフやチャートを読み解き、それを生成するPythonコードを出力する合成データセット「ChartGen」を開発。これにより、財務・科学レポートの自動分析が期待できます。また、デザイン画像を基に質感を再現するプログラムを自己改良しながら生成するシステムも構築しています。

これらの研究は、それぞれがAIの核心的な課題に取り組んでいます。信頼性の確保、効率性の向上、そしてマルチモーダルな推論能力の強化は、AIが実験段階を終え、現実世界のビジネスや科学の現場で不可欠なツールとなるための重要な布石です。個々の技術革新が連携し、より強力で費用対効果の高いAIシステムの実現を加速させるでしょう。

出典：MIT News

脱Attention機構、新AIが計算コスト98%減を達成

2025年11月04日ネットワーク数学推論スタートアップベンチマークトランスフォーマー

新技術Power Retention

Attention機構を完全撤廃

RNNのように逐次的に情報を更新

文脈長に依存しない計算コスト

驚異的なコスト効率

再学習コストは僅か4,000ドル

Transformerの2%未満の費用

既存モデルの知識を継承し効率化

Transformerに匹敵する性能

主要ベンチマークで同等性能を記録

長文脈や数学的推論で優位性

詳細を見る

AIスタートアップのManifest AIが2025年10月28日、Transformerアーキテクチャの根幹「Attention機構」を代替する新技術「Power Retention」を発表しました。この技術を用いた新モデル「Brumby-14B-Base」は、既存モデルをわずか4,000ドルで再学習させることで、Transformerに匹敵する性能を達成。AI開発のコスト構造を根底から覆す可能性を秘めています。

現在の主要な大規模言語モデルは、Transformerアーキテクチャを基盤とします。その中核であるAttention機構は強力ですが、文脈が長くなるほど計算コストが二次関数的に増大するという深刻な課題を抱えていました。これがモデルの長文脈対応のボトルネックとなっていたのです。

Manifest AI開発の「Power Retention」は、この課題を解決する新技術です。Attention機構のように文脈全体を一度に比較せず、リカレントニューラルネットワーク（RNN）のように情報を逐次的に圧縮・更新します。これにより文脈長に関わらず計算コストが一定に保たれます。

Brumby-14B-Baseモデルの衝撃は、その圧倒的なコスト効率です。既存モデルをわずか60時間、約4,000ドルで再学習を完了。ゼロから学習する場合の2%未満の費用です。これはAI開発の参入障壁を劇的に下げ、より多くの組織に大規模実験の道を開きます。

低コストながら性能に妥協はありません。Brumbyモデルは各種ベンチマークで、元のモデルや他の同規模Transformerモデルと同等以上のスコアを記録しました。特に、Attention機構が苦手とする長文脈の読解や数学的推論といったタスクで優位性を示し、新アーキテクチャの利点を裏付けています。

この成果は、AI界を約10年にわたり支配してきたTransformer一強時代に風穴を開けるものかもしれません。Manifest AIは「Transformer時代の終わりはまだだが、その行進は始まった」と述べています。AIアーキテクチャの多様化が進み、開発競争が新たな局面に入ることは間違いないでしょう。

出典：VentureBeat

確実性でLLM超え狙うAI、30億円調達

2025年11月03日 ChatGPT エンジニアカスタマーサービス推論インフラクラウドポリシースタートアップ医療資金調達評価額基盤モデルトランスフォーマー Intel

ポストTransformer技術

LLMの言語能力と記号AIの論理推論を融合

ニューロシンボリック方式を採用

確率的なLLMの予測不能性を克服

タスク指向の対話に特化した設計

企業AUIと新モデル

NYの新興企業、評価額1125億円

新基盤モデル「Apollo-1」を開発

総調達額は約90億円に到達

2025年末に一般提供を予定

詳細を見る

ニューヨークのAIスタートアップ、Augmented Intelligence Inc (AUI)は2025年11月3日、2000万ドル（約30億円）の資金調達を発表しました。これにより企業評価額は7億5000万ドル（約1125億円）に達します。同社は、ChatGPTなどが用いるTransformerアーキテクチャの課題である予測不可能性を克服するため、ニューロシンボリックAI技術を開発。企業が求める確実で信頼性の高い対話AIの実現を目指します。

AUIが開発する基盤モデル「Apollo-1」の核心は、そのハイブリッドな構造にあります。ユーザーの言葉を理解する「ニューラルモジュール」と、タスクの論理構造を解釈し、次に取るべき行動を決定論的に判断する「シンボリック推論エンジン」を分離。これにより、LLMの持つ言語の流暢さと、従来型AIの持つ厳密な論理実行能力を両立させています。

なぜ今、この技術が注目されるのでしょうか。既存のLLMは確率的に応答を生成するため、常に同じ結果を保証できません。これは、金融やヘルスケア、顧客サービスなど、厳格なルール遵守が求められる業界では大きな障壁となります。Apollo-1は、組織のポリシーを確実に適用し、タスクを最後まで間違いなく遂行する能力でこの課題を解決します。

Apollo-1の強みは、その汎用性と導入のしやすさにもあります。特定の業界に特化せず、ヘルスケアから小売まで幅広い分野で応用可能です。また、特別なインフラを必要とせず、標準的なクラウド環境で動作するため、導入コストを抑えられる点も企業にとっては魅力的です。開発者は使い慣れたAPI経由で簡単に統合できます。

今回の調達は、より大規模な資金調達の前段階と位置付けられており、同社への期待の高さをうかがわせます。Fortune 500企業の一部では既にベータ版が利用されており、2025年末までの一般公開が予定されています。LLM一強の時代から、用途に応じた多様なAIが選択される新時代への転換点となるかもしれません。

出典：VentureBeat

「Transformerにうんざり」考案者が語るAI研究の危機

2025年10月23日 ChatGPT 投資家リスク投資トランスフォーマー

AI研究の現状と課題

Transformerへの過度な集中

投資圧力による研究の画一化

競争激化が招く独創性の低下

次世代の革新を見逃すリスク

新たなブレークスルーへ

Transformerが生まれた自由な研究環境

Sakana AIでの探求的アプローチ

あえて競合とは異なる研究を

自然から着想を得る新手法

詳細を見る

ChatGPTなどを支える基盤技術「Transformer」の共同考案者であるリオン・ジョーンズ氏（現Sakana AI CTO）が、サンフランシスコのTED AIカンファレンスで講演。現在のAI研究がTransformerに過度に集中し、画一化していることに「うんざりしている」と述べ、業界に警鐘を鳴らしました。彼は、次の技術革新のために、より探求的なアプローチが必要だと訴えています。

ジョーンズ氏は、AI分野への空前の投資が逆に研究の幅を狭めていると指摘します。投資家からの圧力や研究者間の競争が、独創的な研究よりも安全な成果を追い求める傾向を助長。業界全体が次のブレークスルーを見逃す危険に瀕していると警告しています。

氏によれば、Transformer自体は、経営陣からのプレッシャーがない自由な環境から生まれました。特定の目標に縛られず、自由な議論の中から生まれたのです。現在の研究者が高い報酬を得ながらも、成果への圧力からリスクを取れない状況とは対照的だとし、イノベーションの源泉を問い直しています。

この問題意識から、ジョーンズ氏が共同創業した東京のSakana AIでは、あえてTransformerから距離を置き、自然から着想を得るなど、探求的な研究を推進しています。論文数や競合を追うのではなく、「もし自分たちがやらなければ、誰もやらないような研究」に注力。自由な環境こそが優秀な人材を惹きつけると語ります。

ジョーンズ氏の警告は、大規模モデルの性能向上が鈍化しつつある「スケーリングの限界」が囁かれる中で、特に重みを持ちます。Transformerの成功が、皮肉にも次の技術革新を阻んでいるのかもしれません。AI業界が持続的に成長するためには、現在の成功モデルに安住せず、未知の領域へ踏み出す勇気が求められています。

出典：VentureBeat

Hugging Face、文章埋め込みの雄を正式に傘下へ

2025年10月22日検索エコシステムエンジニアインフラドイツトランスフォーマー Hugging Face

Hugging Faceへ正式移管

セマンティック検索で人気のライブラリ

開発元は独ダルムシュタット工科大学

Hugging Faceのインフラで開発加速

エコシステムのさらなる発展

オープンソース・ライセンスは維持

コミュニティ主導の開発を継続

Hub上で1.6万超のモデルが利用可能

月間ユニークユーザーは100万人超

詳細を見る

AIプラットフォームのHugging Faceは2025年10月22日、高品質な文章埋め込み生成ライブラリ「Sentence Transformers」を正式に管理下に置くと発表しました。これまでドイツのダルムシュタット工科大学UKP Labが主導してきましたが、今後はHugging Faceのインフラを活用し開発を加速させます。これはセマンティック検索などを手掛ける開発者にとって重要な動きです。

Sentence Transformersは、文章の持つ意味を捉えたベクトル表現（埋め込み）を生成する人気のオープンソースライブラリです。2019年の登場以来、セマンティック検索や文章の類似度比較、クラスタリングといった多様な自然言語処理タスクで広く採用され、業界のデファクトスタンダードとしての地位を確立しています。

このライブラリは、もともとダルムシュタット工科大学のUKP Labで開発・維持されてきました。しかし、2023年後半からはHugging Faceのエンジニアがメンテナンスを引き継いでおり、今回の発表でその関係が公式化されました。長年の研究成果が、エコシステムの中心的存在へと引き継がれる形となります。

Hugging Faceへの移管により、同社の持つ堅牢なインフラが最大限に活用されます。継続的インテグレーションやテスト環境が整備されることで、ライブラリの安定性が向上し、情報検索や自然言語処理における最新技術への追随がより迅速かつ確実になることが期待されています。

今後の運営方針はどうなるのでしょうか。ライセンスは従来通りApache 2.0を維持し、オープンソースかつコミュニティ主導のプロジェクトとして継続されます。Hugging Faceは、これまでのオープンで協力的な精神を尊重しつつ、プロジェクトのさらなる成長と革新を支援していくと表明しています。

Hugging Face Hubでは、既に1万6000以上のSentence Transformers関連モデルが公開され、月間100万人以上のユニークユーザーに利用されています。今回の正式移管は、この巨大なエコシステムをさらに強化し、AIを活用したアプリケーション開発の加速に繋がるでしょう。

出典：Hugging Face

AI気球が天気予報を変革、精度で世界一に

2025年10月21日 Google ChatGPT 気象 GPU ハードウェアインフラエネルギースタートアップトランスフォーマー

革新的なデータ収集

自律航行する気象気球

従来比数十倍のデータ量

観測空白域のデータを網羅

ハリケーンへの直接投入も

世界最高精度のAI

独自AIモデルWeatherMesh

Google、Huaweiを凌駕

従来モデルを最大30%上回る精度

低コストなGPUで高速運用

詳細を見る

米スタートアップWindBorne Systems社が、自律航行する気象気球と独自のAIモデル「WeatherMesh」を組み合わせ、世界で最も正確な天気予報システムを開発しました。従来手法では観測が困難だった広大な海洋上のデータを気球で収集し、AIで解析。これにより、ハリケーンの進路予測などで既存の主要モデルを上回る精度を達成し、防災や再生可能エネルギー、農業分野などでの活用が期待されています。

従来の天気予報は、観測データが乏しい海洋や砂漠などの「観測空白域」が存在することが大きな課題でした。特に、多くのハリケーンが発達する海洋上では、有人飛行機による観測は危険とコストを伴うためデータが不足しがちです。このデータ不足が、2024年のハリケーン「ミルトン」のような壊滅的な被害をもたらす異常気象の予測を困難にしていました。

この課題を解決するのが、同社が開発した長時間滞空型の気象気球です。従来の気球が数時間で破裂するのに対し、この気球は50日以上も上空に留まることが可能です。風を読んで高度を自律的に調整し、狙ったエリアのデータを収集します。実際にハリケーン「ミルトン」発生時には、安全な場所から放たれた気球がハリケーンの心臓部に到達し、貴重なデータを取得することに成功しました。

気球が収集した膨大なデータは、同社独自のAI予報モデル「WeatherMesh」に入力されます。このモデルはChatGPTなどにも使われるTransformer技術を基盤とし、競合であるGoogleのGraphCastやHuaweiのPangu-Weatherを上回る予測精度を記録しています。物理ベースの従来モデルと比較しても最大30%精度が高く、それでいて安価なGPUで高速に運用できる効率性も両立しています。

気球によるデータ収集とAIによる予測は、互いに連携する「エンドツーエンド」のシステムを形成しています。AIが予測精度向上に必要なデータ領域を特定し、気球群をその場所へ誘導。気球が収集した最新データが、さらにAIの予測精度を高めるという好循環を生み出します。同社はこの仕組みを「惑星の神経系」と呼び、地球全体の気象をリアルタイムで把握することを目指しています。

WindBorne社は将来的に、常時1万個の気球を飛行させ、地球全体をほぼ継続的に観測する体制を2028年までに構築する計画です。気候変動により異常気象が深刻化する中、高精度な気象予測は、社会のレジリエンスを高める上で不可欠なインフラとなるでしょう。AIとハードウェアを融合させたこのアプローチは、気象予測の新たなスタンダードになる可能性を秘めています。

出典：spectrum.ieee.org

AI21が25万トークン対応の小型LLMを発表、エッジAIの経済性を一変

2025年10月08日推論 GPU オンデバイスインフラクラウドデータセンタープライバシーポリシースタートアップコンテキストベンチマークトランスフォーマー

小型モデルの定義変更

30億パラメータのオープンソースLLM

エッジデバイスで25万トークン超を処理

推論速度は従来比2〜4倍高速化

分散型AIの経済性

MambaとTransformerのハイブリッド構造採用

データセンター負荷を減らしコスト構造を改善

高度な推論タスクをデバイスで実行

企業利用の具体例

関数呼び出しやツールルーティングに最適

ローカル処理による高いプライバシー確保

詳細を見る

イスラエルのAIスタートアップAI21 Labsは、30億パラメータの小型オープンソースLLM「Jamba Reasoning 3B」を発表しました。このモデルは、ノートPCやスマートフォンなどのエッジデバイス上で、25万トークン以上という異例の長大なコンテキストウィンドウを処理可能であり、AIインフラストラクチャのコスト構造を根本的に変える可能性を秘めています。

Jamba Reasoning 3Bは、従来のTransformerに加え、メモリ効率に優れたMambaアーキテクチャを組み合わせたハイブリッド構造を採用しています。これにより、小型モデルながら高度な推論能力と長文処理を両立。推論速度は従来のモデルに比べて2〜4倍高速であり、MacBook Pro上でのテストでは毎秒35トークンを処理できることが確認されています。

AI21の共同CEOであるオリ・ゴーシェン氏は、データセンターへの過度な依存が経済的な課題となっていると指摘します。Jamba Reasoning 3Bのような小型モデルをデバイス上で動作させることで、高価なGPUクラスターへの負荷を大幅に軽減し、AIインフラストラクチャのコスト削減に貢献し、分散型AIの未来を推進します。

このモデルは、特に企業が関心を持つユースケースに最適化されています。具体的には、関数呼び出し、ポリシーに基づいた生成、そしてツールルーティングなどのタスクで真価を発揮します。シンプルな業務指示や議事録作成などはデバイス上で完結し、プライバシーの確保にも役立ちます。

Jamba Reasoning 3Bは、同規模の他の小型モデルと比較したベンチマークテストでも優位性を示しました。特に長文理解を伴うIFBenchやHumanity’s Last Examといったテストで最高スコアを獲得。これは、同モデルがサイズを犠牲にすることなく、高度な推論能力を維持していることを示しています。

企業は今後、複雑で重い処理はクラウド上のGPUクラスターに任せ、日常的かつシンプルな処理はエッジデバイスでローカルに実行する「ハイブリッド運用」に移行すると見られています。Jamba Reasoning 3Bは、このハイブリッド戦略の中核となる効率的なローカル処理能力を提供します。

出典：VentureBeat | spectrum.ieee.org

AIエージェントの信頼性を劇的向上 AUIが「確実な行動」実現の独自モデル発表

2025年10月07日 Google Amazon 推論ポリシースタートアップエージェントプロンプトベンチマーク基盤モデルトランスフォーマー Intel

現行AIエージェントの課題

タスク完了の信頼性が低い（企業レベル未達）

業界ベンチマークで成功率30〜56%に留まる

純粋な生成AIは「もっともらしいテキスト」を出力

特定の規則やポリシー遵守の「確実性」が欠如

信頼性を生む独自技術

基盤モデル「Apollo-1」を開発

ハイブリッドなニューロ・シンボリック推論を採用

言語能力と構造化された論理を融合

次トークン予測ではなく次アクション予測を実行

性能差が示す実力

TAU-Bench Airlineで92.5%の通過率を達成

既存トップモデルを大幅に上回る

AmazonやGoogle Flightsでのタスク実行も高精度

企業ポリシー遵守をシステムプロンプトで保証

詳細を見る

ステルススタートアップAugmented Intelligence（AUI）は、エンタープライズ向けAIエージェントの信頼性を劇的に高める基盤モデル「Apollo-1」を発表しました。従来のLLMが苦手としていた、タスクの確実な実行という課題を克服するため、独自開発のハイブリッドアーキテクチャを採用し、ベンチマークで圧倒的な性能差を示しています。

従来のLLMは、チャットや探索的な対話では優れた能力を発揮しますが、企業が求める複雑なタスクを確実に実行する能力が不足していました。AIエージェントの性能を測るベンチマーク「Terminal-Bench Hard」では、現在の最高モデルでも成功率は30%台に留まり、ビジネスルールが求められる場面で信頼性に欠ける点が大きな課題でした。

Apollo-1は「ステートフル・ニューロ・シンボリック推論」というハイブリッド構造に基づいています。これは言語の流暢さを担うニューラル層と、意図や制約といった構造化された論理を担うシンボリック層を統合し、タスク実行における「確実性（Certainty）」を保証するためのものです。

Transformerモデルが次のトークンを確率的に予測するのに対し、Apollo-1は会話の中で次に取るべき「アクション」を予測します。この構造により、エンコーダが自然言語をシンボリックな状態に変換し、決定エンジンが次の行動を決定するという、閉じた推論ループを実行。統計的な予測ではなく、決定論的な動作を実現しています。

この決定的な動作は、企業ポリシーの遵守において極めて重要です。例えば、銀行が「200ドル以上の返金には必ずID確認を義務付ける」といった制約を、Apollo-1では「System Prompt（振る舞い契約）」として定義し、確実に実行できます。これは、純粋な生成AIでは保証できない行動の信頼性を実現します。

ベンチマーク結果はその有効性を示しています。航空券予約タスクを評価する「TAU-Bench Airline」において、Apollo-1は92.5%という驚異的な通過率を達成。これは競合するトップモデルの56%を大きく引き離すものであり、金融、旅行、小売など、タスク実行の信頼性が求められる業界での応用が期待されます。

出典：VentureBeat

AI計算コスト削減の鍵、スパースアテンション

2025年09月30日 OpenAI DeepSeek ChatGPT GPT-5 中国トランスフォーマー

従来AIの計算課題

AIの文脈理解を担う「アテンション」

入力長の二乗で計算コストが増加

長文対話処理のボトルネックに

新技術への期待

DeepSeek社が新技術をテスト

DeepSeek、APIコスト半減の新AIモデル発表

2025年09月29日 DeepSeek エンジニア推論オープンウェイト米国中国米中トランスフォーマー Hugging Face

APIコストを半減する新技術

長い文脈での推論コスト削減

APIコストが最大で半減

新技術「スパースアテンション」

実験モデル「V3.2-exp」を公開

効率化を実現する2段階選択

まず重要部分を抜粋・優先順位付け

次に抜粋内からトークンを選択

サーバー負荷を大幅に軽減

Hugging Faceで利用可能

詳細を見る

中国のAI企業DeepSeekは29日、新しい実験的AIモデル「V3.2-exp」を発表しました。このモデルは「スパースアテンション」と呼ばれる新技術を搭載しており、長い文章や大量のデータを処理する際の推論コスト（APIコスト）を最大で半減させる可能性を秘めています。AIの運用コスト削減は業界全体の課題であり、今回の発表は大きな注目を集めています。

新技術の核心は、処理情報を効率的に絞り込む2段階の仕組みです。まずシステムが入力文から重要部分を抜粋し、次にその中から処理に必要な最小限のトークンを選択します。この選択と集中のアプローチにより、関連性の低い情報処理を省略し、サーバー負荷を大幅に軽減するのです。

AIモデルの運用コスト、特に「推論コスト」の削減は、AIサービスを普及させる上で極めて重要です。今回の試みは、AIの基本構造であるTransformerアーキテクチャの効率化を目指すもの。特に大量の文書読解や複雑な対話など、長い文脈を扱う応用でのコストメリットは計り知れません。

この「V3.2-exp」モデルはオープンウェイトとして、開発者プラットフォームのHugging Faceで既に公開されています。誰でも自由に利用し、その性能を検証できるため、DeepSeekが主張するコスト削減効果が実証される日も近いでしょう。今後、第三者による客観的な評価やさらなる改良が期待されます。

DeepSeekは中国に拠点を置く企業で、年初には独自の学習手法を用いたモデルで業界を驚かせました。今回の発表は、米中間の技術競争という側面だけでなく、AI業界全体のコスト効率化という共通課題に対する一つの解を示した点で意義深いと言えます。この技術が米国の主要プロバイダーにも影響を与える可能性があります。

出典：TechCrunch

Hugging Face、Apple向けAIライブラリv1.0を公開

2025年09月26日 Apple エコシステムエンジニア推論機械学習オンデバイス音声エージェントトランスフォーマー Hugging Face

Apple開発者向けAIツール

ローカルLLMのアプリ統合を簡素化

Tokenizer, Hubなど必須機能を提供

Core MLやMLXを補完する設計

v1.0の進化点

パッケージの安定性向上とAPI整理

モジュール分割による依存性削減

最新Core ML APIとSwift 6に対応

今後のロードマップ

MLXフレームワークとの連携深化

エージェント型ユースケースの探求

詳細を見る

AIプラットフォームのHugging Faceが、Apple製品開発者向けライブラリ「swift-transformers」のバージョン1.0を公開しました。本ライブラリは、iPhoneなどのデバイス上でローカルにAIモデルを動作させる際の技術的ハードルを下げ、アプリへの組み込みを容易にすることを目的としています。

swift-transformersは、AppleのCore MLやMLXといった機械学習フレームワークを補完する重要な機能群を提供します。具体的には、複雑なテキスト入力を処理する「Tokenizers」、Hugging Face Hubからモデルを管理する「Hub」、Core ML形式モデルの推論を簡素化する「Models」と「Generation」が中核をなします。

すでに、Apple自身のサンプル集「mlx-swift-examples」や、高性能な音声認識フレームワーク「WhisperKit」など、多くのプロジェクトで採用されています。これにより、Apple エコシステムにおけるオンデバイスAI開発の基盤技術としての地位を確立しつつあると言えるでしょう。

今回のv1.0リリースは、ライブラリの安定性を公式に保証する初のメジャーアップデートです。主要な変更点には、必要な機能だけを導入できるモジュール分割や、最新のCore ML APIへの対応、そしてSwift 6への完全準拠が含まれます。開発者はより安心して長期的なプロジェクトに採用できます。

Hugging Faceは今後の展望として、Appleの機械学習フレームワーク「MLX」との連携強化を掲げています。さらに、自律的にタスクを処理する「エージェント」のような、より高度なユースケースの実現も視野に入れており、オンデバイスAIの新たな可能性を切り拓くことが期待されます。

出典：Hugging Face

Cohere、企業価値70億ドルに到達、AMDと提携でNvidiaに対抗

2025年09月24日 OpenAI Anthropic NVIDIA ネットワーク投資家半導体 GPU 投資提携トランスフォーマー Cohere

詳細を見る

企業向けAIモデル開発のCohereは9月24日、1億ドルを追加で調達し、企業価値が70億ドルに達したと発表しました。これは8月の5億ドル調達に続くものです。同時に半導体大手AMDとの提携も締結し、NvidiaとOpenAIの連合に対抗する動きを見せています。この提携は、AI市場の勢力図に変化をもたらす可能性を秘めています。今回の提携の核心は、CohereのAIモデル群がAMDのGPU「Instinct」で動作可能になる点です。これは市場を独占するNvidia製GPUへの依存を減らす動きと言えるでしょう。さらに、AMD自身もCohereの顧客となり、自社内でAIモデルを活用します。CohereはNvidia製GPUのサポートも継続するとしています。 Cohereは2019年、生成AIブームの火付け役となった論文「Transformer」の共著者によって設立された有力企業です。しかし、OpenAI（企業価値5000億ドルとの報道）やAnthropic（同1830億ドル）といった競合に比べると、企業価値の規模では後塵を拝しているのが現状です。 Cohereは特に「AI主権」を重視する企業をターゲットにしています。これは、自社のデータやAIモデルを外部の事業者に委ねず、自国・自社内で管理したいというニーズに応える戦略です。今回のラウンドに国際的なネットワークを持つ投資家が新たに参加したことも、この戦略を裏付けています。

出典：TechCrunch

トランスフォーマー（LLM技術）に関するニュース一覧

トランスフォーマー（LLM技術）に関するニュース一覧

発表の要点

技術と適用範囲

課題

提案するAPI

公開モデルの概要

ライセンス条件

3階層のモデル

性能と展開

AI70年の歩み

強みと懸念

IEEEの貢献

モデルの実力

市場と戦略

講座の中身

ねらいと修了特典

今回の人事

IPOと業界再編

評価手法の狙い

検証で得た発見

Marlinの概要

技術と背景

低コスト訓練の仕組み

ベンチマーク性能

企業向けの展望

モデルの技術的特徴

性能と対応環境

Flourishの構想

LLMの限界への挑戦

研究体制と展望

基盤モデルへの転換

大手金融の採用状況

エコシステムの整備

単一モデルで統合

用途と公開形態

性能と価格

技術の核心

企業利用

完全ローカル音声パイプライン

柔軟なLLM構成と導入手順

Ettinリランカーの性能

蒸留による学習手法

推論速度の優位性

効率化の技術的手法

実用面の影響

主な変更点

開発者への影響

小型モデルの性能躍進

実用性重視の設計思想

311Mモデルの総合力

同期処理の無駄を解消

非同期化の技術的課題

実測で大幅な性能向上

ZAYA1-8Bの革新

驚異的ベンチマーク性能

AMD基盤と業界への示唆

モデルの特徴と性能

アーキテクチャと技術基盤

活用領域と展開

埋め込みモデルの構造的限界

既存手法の限界と2段階修正

爆発する天文データ量

GPU駆動のAI解析基盤

GPU確保の課題

プラットフォームの特徴

産業・研究への展開

Skillの仕組みと特徴

品質担保の取り組み

今後の展望と課題

学習手法と実装

実用的な技術要素

CompreSSMの仕組み

性能と高速化

今後の展望

v5.4の新機能

対応モデルと要件

単一モデルで高精度認識

OCRモデルも同時発表

診断ベンチマークPBench