Qwen(プロダクト)に関するニュース一覧

Alibaba、環境を予測する世界モデルAgentWorld公開

発想の逆転

環境の応答を予測する世界モデル
7領域を単一構造で統合
行動選択ではなく次状態を学習
1000万超の対話軌跡で3段階学習

学習効果と懸念

制御シミュ訓練が実環境を上回る成績
未学習ベンチ含む7指標で改善
自作ベンチで僅差の懸念指摘

中国AlibabaのQwenチームは6月24日、エージェントの行動ではなく環境が返す状態を予測する世界モデル「Qwen-AgentWorld」を公開しました。MCP検索、ターミナル、ソフトウェア開発、Android、Web、OSの7領域を単一アーキテクチャで扱い、5月に発表した35時間自律実行モデルに続く自律エージェント強化の一環です。狙いは、本番環境では稀にしか現れないエッジケースを学習に組み込むことにあります。

従来のエージェントモデルは「環境を見て次に何をするか」を学びますが、本モデルはその逆で「行動の結果、環境が何を返すか」を予測します。論文はこれを言語世界モデルと呼び、世界モデリングこそ汎用エージェントへの欠けたピースだと主張しています。実検索や実ターミナルでは低ディスク容量などの条件を任意に注入できないという、大規模学習の壁に対する答えです。

両モデルはいずれもMixture-of-Experts構成で、35Bは3B、397Bは17Bだけがトークンごとに活性化し、256Kの文脈長に対応します。GUI領域ではスクリーンショットではなくアクセシビリティツリーやUI階層をテキストとして扱います。35Bの重みとベンチAgentWorldBenchはApache 2.0で公開され、397Bの重みは非公開です。

制御シミュレーション内で訓練したエージェントは、実環境のみで訓練した場合を上回りました。狙ったかく乱を注入することでMCPMarkは24.6から33.8へ上昇し、検索では完全に架空の世界で訓練したエージェントが実タスクへ転移し、WideSearchのF1が34.02から50.31へ伸びました。事前学習をウォームアップに用いると、エージェント特化の微調整なしでBFCL v4が62.29から71.25へ改善しています。

一方でX上の研究者からは慎重な指摘も相次ぎました。「Alibabaが同じ論文で作って公開したベンチを0.46差で上回っただけ」との声や、シミュレーション訓練は過学習しやすく「世界モデルが綺麗すぎるとタスクではなくモデルを学んでしまう」との懸念が挙がっています。非制御と制御シミュの差は、利得が制御機構に大きく依存することを示唆します。

エージェント基盤を構築する開発チームにとって、本研究は実環境RLと静的ベンチの中間に制御シミュレーションという第3の選択肢を示しました。合成環境は近道ではなく実環境RLを補完する正当な学習層であり、未学習ベンチでも効果が出たウォームアップの結果は、環境理解を開発のより早い段階に置くべきだと示しています。

NVIDIA、MoE学習を最大3.7倍高速化

発表の要点

import1行で3.4〜3.7倍高速化
GPUメモリ最大32%削減
Transformers v5を土台に拡張
HF互換APIで既存コード不変

技術と適用範囲

Expert Parallelismで専門家を分散
DeepEPが通信と計算を融合
550Bモデルの全層調整も実現

NVIDIAは6月24日、HuggingFace Transformersの上に構築するオープンライブラリ「NeMo AutoModel」を公開しました。import文を1行変えるだけで、MoE(混合専門家)モデルのファインチューニングTransformers v5比で3.4〜3.7倍高速化し、GPUメモリを29〜32%削減します。from_pretrained()など既存APIはそのまま使え、コード改変は不要です。

MoEモデルの学習には固有の難しさがあります。数百の専門家へトークンを振り分け、行列積を一つのカーネルに融合し、重みをGPU間で分割し、通信と計算を重ね合わせる処理が必要だからです。Transformers v5は専門家バックエンドや動的な重み読み込みでこれに対応しましたが、通信と計算を重ねるDeepEPは未実装でした。

NeMo AutoModelはこの欠けた部分を補います。AutoModelForCausalLMを継承し、Expert Parallelism(EP)、DeepEPによる全対全ディスパッチTransformerEngineカーネルを追加しました。EPは専門家の重みをGPU間で物理的に分割し、8GPUなら各GPU専門家の8分の1だけを保持します。これにより、従来は約55GiB必要だった専門家の重みが1GPUあたり約6.8GiBに収まります。

性能評価は2つの規模で実施されました。8GPU単一ノードのQwen3-30B-A3Bでは、v5比でスループットが3.69倍、ピークメモリは29%減。Nemotron 3 Nano 30Bでも3.36倍、メモリ32%減を記録しました。高速化の源はEPによるメモリ削減、DeepEPの通信融合、TransformerEngineの最適化カーネルの3点です。

大規模側では、550BパラメータのNemotron 3 Ultraの全層ファインチューニング16ノード128GPUで実行しました。Transformers v5はこの規模でメモリ不足になり動作しませんが、EPが専門家を分散することで学習が可能になります。EPが本領を発揮するのは、まさにこの大規模領域です。

NeMo AutoModelの出力は標準的なHF形式のsafetensorsであるため、save_pretrained()で保存した重みはvLLMやSGLangといった推論基盤にそのまま載せられます。NVIDIAは、Transformers v5を使うユーザーにとって本ライブラリが摩擦のない次の一歩になると位置づけています。

Xiaomi、AI足場を自動改修 小型モデルが最も向上

HarnessXの中核

足場を独立した第一級部品化
モデルと設定の分離設計
AEGISによる自律進化
実行ログを改善信号に転用

検証結果

15組中14組で性能向上
平均14.5%の絶対改善
Qwen3.5-9Bで最大44%増
共進化で追加4.7%上乗せ

中国Xiaomiの研究チームは6月24日、AIエージェントの土台となるハーネス(足場ソフト)を実行中に自動で書き換える枠組み「HarnessX」を発表しました。ハーネスはLLMと外部環境をつなぐプロンプトやツール、記憶管理、制御フローの総体で、従来は人手で固定的に作られてきました。HarnessXはこれを自律的に改善し、15のモデルとベンチマークの組み合わせで平均14.5%の性能向上を示しました。

最大の特徴は、ハーネスを独立して交換可能な第一級の部品として扱う点です。どのモデルを使うかという設定と足場の設定を分離することで、土台のモデルに触れずに足場だけを入れ替え、進化させられます。各挙動は「プロセッサ」として実装され、周囲を壊さずに追加や削除ができます。

この最適化を自動化するのが、強化学習で足場を進化させるエンジン「AEGIS」です。実行ログを要約する「Digester」、構造的な変更を探る「Planner」、コード編集を生成し検証する「Evolver」、そして報酬ハッキングを検知する「Critic」と退行を防ぐゲートの4段構成で動きます。これにより、既に解けた処理を壊さずに失敗パターンを修正します。

検証では、ソフトウェア開発やWeb操作、接客対話など5分野で試験し、15組中14組で性能が向上しました。特に効果が大きかったのは性能の低い小型モデルで、オープンウェイトQwen3.5-9Bは身体的計画タスクで44%、コーディングで18.2%の上昇を記録しています。土台モデルの規模拡大だけが性能向上の道ではないことを示す結果です。

さらに、足場の進化で得たログをモデルの強化学習に転用する共進化により、追加で平均4.7%の上乗せも確認されました。足場とモデルを同時に改善することで、それぞれを単独で磨く場合の限界を超えられるといいます。実例では、Wikipedia収集に失敗したエージェント向けに、ブラウザを介さずAPIを直接叩く新ツールを自動生成し、失敗していた処理を解消しました。

一方で課題も残ります。足場を書き換えるメタエージェントにはClaude Opusなどの高性能な閉鎖モデルが必要で、オープンウェイトモデルが同役を担えるかは未検証です。土台モデルが弱すぎる場合は改善が頭打ちになる点も確認されました。それでも、高価な最先端モデルに乗り換える前に足場の進化を試す価値は大きく、研究チームはコードの公開を予定しています。

中国AI専門家も警戒、米中協調を提言

会議での提言

北京のAI国際会議での議論
米中競争を脇に置く提案
サイバー・システムリスク共有
核軍縮に似た協力の必要性

オープンモデルの懸念

ガードレール除去の危険性
一部高性能モデルの非公開化

米誌WIREDの記者は2026年6月、北京の中関村で開かれた大規模なAI国際会議に参加し、中国のトップ専門家らもAIの急速な発展に強い警戒感を抱いている実態を報じました。会議では再帰的自己改良やヒューマノイドロボットなどが議論され、公開鍵暗号の共同発明者ホイットフィールド・ディフィー氏らも登壇しました。記者が得た最大の示唆は、米中激しいAI競争を脇に置くべきだという点です。

背景には、より自律的に動くエージェント型AIがサイバー攻撃や予期せぬ障害を引き起こすシステミックリスクへの懸念があります。米国はこれまで中国のAIを経済・安全保障上の脅威とみなし、半導体や製造装置の輸出規制を強めてきました。直近では米政府がAnthropicに対し、外国籍者が最新モデルMythosやFable 5へアクセスするのを防ぐよう命じ、同社は全利用者のアクセスを一時停止しています。

それでも会議を主催した北京智源人工智能研究院での議論は、AIを拙速かつ無謀に開発すれば米中双方が損失を被るという認識を補強しました。MITの計算機科学者スティーブン・キャスパー氏は、国際協力の利点が安全保障上のリスクを上回るとする研究を示し、米ソが核の危険性をめぐり協力せざるを得なかった歴史になぞらえました。「AIにチェルノブイリの瞬間は必要ない」という言葉は、立場を超えた共通認識を表しています。

上海交通大学のリン・ユン教授は、当面はハッカーが優位に立つものの、AIを使った新たな防御策が時間とともに均衡を取り戻すと見ています。同教授は、競争があっても国際協力は優先課題であり、各国がリスクを同様に理解すれば共通の安全基準や技術標準を作りやすくなると指摘しました。機微な運用情報を晒さずにシステミックリスクを減らせる領域を見つけることが鍵だと述べています。

最も差し迫った論点は、開放性とリスクのバランスです。MoonshotのKimi、AlibabaのQwen、Z.aiのGLMなど中国製のオープンウェイトモデルは米国でも人気を集め、研究や技術革新に欠かせない存在となっています。一方、米国NvidiaのNemotronなどで巻き返しを図っていますが、ガードレールを外した低性能モデルでさえ危険になりうる転換点が近づいています。

実際、今週には中国のサイバーセキュリティ大手360が、Mythosに匹敵するハッキング能力を持つAIを開発したと表明しました。中国大手AI企業の匿名の関係者は、安全上の懸念から一部の先進モデルをオープンソースとして公開しなくなっていると明かしています。バックドアや脆弱性のない最新モデルをどう保証するかが、今後の業界共通の課題となりそうです。

Hugging Faceがエージェント向けツール検証手法を公開

評価手法の狙い

過程まで計測する評価
正解だけでなく手数を測定
ツール改善効果の可視化

検証で得た発見

CLIとSkillで大型は高速化
小型モデルでは精度低下
Qwen3-14Bは正答率半減
Skillの誤認識が失敗要因

AI開発企業のHugging Faceは2026年6月18日、コーディングエージェントが特定のソフトウェアをどれだけ効率的に扱えるかを測る検証手法を公開しました。同社のライブラリ「transformers」を題材に、最終的な正解だけでなく、答えにたどり着くまでの手数やトークン量、所要時間を計測する点が特徴です。

従来のベンチマークの多くは、エージェントが最終的に正しい答えを出せたかどうかだけを見てきました。しかし同じ結果でも、1コマンドで完了する場合と、40行のスクリプトを書いて何度も再実行する場合では、コストや失敗率が大きく異なります。同社はこの過程の差こそが、ライブラリの設計改善に重要だと指摘します。

検証では各タスクを3つの条件で実行しました。素のインストール状態、ソース全体を複製した状態、そしてCLIの文書と利用例をまとめた「Skill」を読み込ませた状態です。すべてHugging Face Jobs上で同一ハードウェアを使い、モデル・改訂版・タスクの組み合わせごとに並列実行しています。

結果として、CLIとSkillを追加した変更は大型の高性能モデルの作業時間を短縮しました。一方で小型モデルでは逆効果となる場面が確認されています。例えばQwen3-14Bは、Skillを加えると全体の正答率が67%から43%へ低下し、感情分類タスクでは100%から0%まで崩れました。

原因をたどると、小型モデルがSkillを実行可能なツールと誤認し、シェルから動かすべきCLIを直接呼び出そうとして処理を断念していたことがわかりました。同社は、エージェント向けのAPIはモデル規模ごとに評価すべきだと結論づけ、検証手法を自社ライブラリにも適用できる形で公開しています。

微博の30億パラメータ新モデルが数学性能で巨大モデルと並ぶ

驚異の性能

数学AIMEで94.3点
巨大DeepSeekと同等の水準
コードでも高い合格率
ノートPCで動く30億規模

広がる懸念

ベンチマーク水増し疑惑
知識問題GPQAは70.2点と低調
実利用での性能ギャップ

中国の交流サイト大手である新浪微博の研究チーム9人が2026年6月15日、わずか30億パラメータの言語モデル「VibeThinker-3B」の技術報告をarXivに公開しました。数百倍の規模を持つGoogleOpenAIの最上位モデルに数学推論で匹敵すると主張し、AI研究界に衝撃を与えています。同モデルはMITライセンスで重みが無償公開されました。

中核となる主張はベンチマーク性能です。数学競技AIME 2026で94.3点を記録し、6710億パラメータのDeepSeek V3.2と肩を並べ、Gemini 3 Proの91.7点を上回りました。コーディングでも実施前のLeetCode週次大会で128問中123問を初回正解し、96.1%という合格率を示しています。

チームはこの結果をパラメトリック圧縮被覆仮説で説明します。数学やコードのように答えを検証できる「推論能力」は小さな中核に圧縮できる一方、幅広い事実を要する「知識能力」は多くのパラメータを要するという考え方です。実際、大学院レベルの科学知識を問うGPQAでは70.2点にとどまり、上位モデルに大きく劣りました。

このモデルはアリババのQwen2.5-Coder-3Bを土台に後処理学習したものです。4段階の学習工程を経ており、能力の境界にある難問を優先的に訓練するMGPOという独自の強化学習手法を採用しています。なお微博は2025年11月にも前身の1.5B版を公開しており、その学習費用はわずか7,800ドルだったと説明しています。

一方で批判も強く出ています。実際に試した利用者からは「人気のPython開発ツールすら理解しない」との報告が相次ぎ、ベンチマーク向けに最適化しただけではないかという「水増し」批判が広がりました。論文側は学習データから評価セットとの重複を除去したと反論しています。

今回の論争が示すのは、巨大化一辺倒だったAI開発への問い直しです。推論と知識を分離できるなら、小型の推論エンジンと大型の知識モデルを組み合わせる構成が現実味を帯びます。導入コストを大きく下げる可能性があり、その真価は順位表ではなく実務での有用性で問われることになります。

Sapientが約1500ドルで基盤モデルをゼロから訓練

低コスト訓練の仕組み

階層型再帰モデルで効率化
指示応答ペアのみで訓練
10億パラメータ・400億トークン
GPU16台で1.9日で完了

ベンチマーク性能

MMLU 60.7%で大型モデルに匹敵
訓練トークン数100〜900分の1
推論と知識記憶の分離が鍵

企業向けの展望

独自ドメイン特化の推論エンジン
外部検索との組み合わせ前提

Sapient Intelligenceの研究チームは、独自のHRM-Text(階層型再帰モデル)アーキテクチャを用いて、わずか約1500ドルで10億パラメータの基盤言語モデルをゼロから訓練したと発表しました。従来、基盤モデルの事前訓練には数百万ドル規模の費用とインターネット規模のデータが必要とされてきましたが、同社はこの常識を覆す結果を示しています。

HRM-Textの核心は、計算を「ゆっくり変化する戦略層」と「素早く変化する実行層」に分離する二層構造にあります。従来のTransformerが生テキストに対して次トークン予測を繰り返すのに対し、HRM-Textは指示と応答のペアのみを訓練データとして使い、タスク完了を目的関数としています。さらに、再帰的な構造で生じる勾配の不安定性を抑えるため、独自の正規化技法「MagicNorm」とウォームアップ手法を導入しました。

ベンチマーク評価では、MMLU 60.7%GSM8K 84.5%、MATH 56.2%を達成しています。これは20億〜70億パラメータ規模のオープンモデルと同等以上の水準です。訓練に使ったトークン数はQwenGemmaLlamaなどの100分の1から900分の1、推定計算量は96分の1から432分の1にとどまります。GPU16台のクラスタで1.9日という短期間で訓練が完了しました。

同社CEOのGuan Wang氏は、企業が直面する課題を「訓練コスト・インフラの重さ・実験サイクルの遅さ」の三重苦と表現しています。HRM-Textは知識の暗記と推論能力を切り離す設計のため、企業は自社データを外部のフロンティアモデルに送ることなく、コンパクトな推論エンジンとして活用できます。外部の検索システムと組み合わせることで、事実情報の取得は別途行う構成が想定されています。

現段階では「ChatGPTの代替にはまだならない」とWang氏自身が認めており、プロダクション利用にはテンプレート設計やアテンションマスクの調整など技術的な作業が必要です。それでも、基盤モデルの訓練コストが1500ドル台に下がるインパクトは大きく、「AIはインフラの問題ではなく戦略の問題になる」と同氏は主張しています。Transformersライブラリでのサポートも始まっており、vLLMやSGLangへの対応も開発中です。

5ラボの小型モデルでマルチモデル経済ゲームを構築

設計の核心

4ラボの小型モデルで構成
エージェント異質な思考
全モデル32B以下で運用可能
摩擦はサービング層に集中

信頼性の作り込み

秘密情報の漏洩ゼロを実証
寛容なJSON修復で無停止
履歴は要約のみでプロンプト肥大回避

AI開発企業Hugging Faceは2026年6月6日、小型モデル活用ハッカソンの第2弾レポートを公開しました。経済シミュレーションゲーム「Thousand Token Wood」のv2では、登場する各エージェントが異なるラボの小型モデルで動作し、プレイヤーは裏で糸を引く金融家「森の庇護者」を演じます。単に眺めるだけだった初代から、操作して遊べるゲームへと再構築した点が大きな変化です。

中核となるのはモデルの異質性です。v2はgpt-oss-20bOpenAI)、MiniCPM3-4B(OpenBMB)、Nemotron-Mini-4B(NVIDIA)、自作の微調整済みQwen 0.5Bという4ラボのモデルを同時に走らせます。異なるデータと事後学習で訓練されたモデルが議論することで、市場参加者が本当に異なる「生きた論争」が生まれると筆者は説明します。

技術的な学びは、難所がモデリングではなくサービング層にあった点です。vLLMがCUDAツールキットを要求するためにベースイメージを修正したり、モデルごとにtrust_remote_codeなどの一行設定が必要だったりと、個別の落とし穴が存在しました。それでも、出力を寛容に解析・修復するJSON層を一度作れば、モデル追加は設定の追記で済む構造を実現しています。

ゲームの劇的な核となるのが情報の非対称性です。プレイヤーは真偽不明の密告をささやけますが、その真偽フラグはエージェントに絶対見せてはならないセキュリティ要件として扱われます。フラグはプロンプト外に置き、毎ターン全プロンプトを走査して禁止語の混入を検査するテストが、最も重要な防御線として機能します。

永続的な記憶も、エージェントを生き生きと見せる安価な手段です。各キャラクターは庇護者や仲間への好悪を整数で保持し、敵対すれば融資を拒み、同盟すればカルテルのように振る舞います。ただし生の履歴ではなく一行の要約のみをプロンプトに渡すことで、小型モデルが情報に溺れる事態を防いでいます。

代表的な実行では、微調整済み0.5Bが自己購入0%・有効提案100%を達成し、3Bの教師モデルを上回りました。筆者は、小型モデルは信頼できる形式生成器だが推論は不安定であり、規模ではなく構造・プロンプト・小さな微調整でその差を埋めるべきだと結論づけています。

Holo3.1、量子化対応のPC操作AIモデルをローカル実行可能に

モデルの主な特徴

4サイズ展開(0.8B〜35B)
FP8・Q4 GGUF・NVFP4の量子化対応
Web・デスクトップ・モバイル対応
関数呼び出しプロトコル新規対応

ローカル推論の性能

NVFP4でBF16比1.74倍の処理速度
エージェント応答を6.8秒から3.3秒に短縮
Apple Silicon等の民生機でも動作
AndroidWorldで79.3%達成

H Companyは2026年6月2日、PC操作を自動化するコンピュータユースエージェント向けモデル「Holo3.1」ファミリーをリリースしました。Qwenベースの本モデルは0.8B・4B・9B・35B-A3Bの4サイズで提供され、初めて量子化チェックポイント(FP8・Q4 GGUF・NVFP4)に対応したことで、クラウドだけでなくローカル環境での高速推論が可能になっています。

前バージョンのHolo3ではブラウザとデスクトップが主な対象でしたが、Holo3.1ではモバイル環境への対応を大幅に強化しました。AndroidWorldベンチマークでは35B-A3Bモデルが67%から79.3%へ、4Bおよび9Bモデルも58%から72%へと精度が向上しています。また、JSON出力に加えて関数呼び出しプロトコルをネイティブサポートし、サードパーティのエージェントフレームワークとの統合を容易にしました。

ローカル推論の高速化も大きな進展です。NVIDIAのDGX Spark上でNVFP4量子化を適用した場合、BF16比で1.74倍のトークンスループットを達成しました。エージェントハーネスの最適化と組み合わせることで、平均ステップ時間は6.8秒から3.3秒へと約2倍の高速化を実現しています。

Q4 GGUF形式のチェックポイントにより、WindowsやMacの民生ハードウェア上でも完全にローカルで動作させることが可能です。Apple Siliconでの動作も確認されており、データがユーザーのネットワーク外に出ないプライバシー重視の運用ができます。モデルはHugging Faceおよび専用APIで公開されています。

PinterestがQwen改造でAIコスト90%削減

独自埋め込みで高速化

Qwen3-VLの視覚層を独自埋め込みに置換
推論レイテンシが20分の1に改善
精度も30%向上を達成

嗜好グラフで購買転換

6.2億ユーザーの嗜好を動的に表現
発見から購買意図への転換を促進
ユーザー埋め込みを常時更新
メタデータの事前計算で大規模運用を実現

Pinterestは月間アクティブユーザー6.2億人を抱えるビジュアル発見プラットフォームです。同社CTOのMatt Madrigal氏は、オープンソースモデルQwen3-VLの視覚エンコーダ層を取り除き、独自のマルチモーダル埋め込みで再構築することで、AIコストを90%削減し、精度を30%向上させたことを明らかにしました。

従来の手法では、推論時に返される画像を1枚ずつエンコードする必要があり、レイテンシが大幅に悪化していました。独自埋め込みの導入により、ピンや画像のメタデータをオフラインで事前計算し、定期的に再学習できるようになったため、推論速度は20倍に改善しています。Madrigal氏は「独自データで微調整すれば、データ品質がモデルサイズを上回る」と述べています。

同社はGoogleのBERTやOpenAIのCLIPの時代からオープンソースモデルの社内カスタマイズに取り組んできました。会話型ショッピングアシスタント「Navigator 1」もQwen3-VLをベースに大幅な改造を施して構築されています。Apache 2.0ライセンスのモデルを活用し、重みレベルで自社ユースケースに最適化する戦略が、コスト効率とパフォーマンスの両立を可能にしています。

さらにPinterestは「テイストグラフ」と呼ばれる嗜好表現の仕組みを構築しています。これはソーシャルグラフではなく、数十億人のユーザーが何に興味を持ち、次に何をしたいかを動的に捉えるプリファレンスグラフです。ユーザー埋め込みは行動や新規コンテンツに基づいて常時更新され、ミッドセンチュリーモダンやナンタケットスタイルといった個人の美的嗜好に合った商品をパーソナライズして提示します。

この仕組みにより、インスピレーションの発見から購買意図への転換という「上位ファネルから下位ファネルへの誘導」が実現されています。Madrigal氏は、6億人超のユーザーに対してスケールが求められる機能については「自社構築するか、オープンソースを徹底的にカスタマイズする」と方針を示しました。

LLMは「虚偽」と明示されたデータも信じ込む

否定無視の実験結果

虚偽と明示しても信念率92.4%に上昇
Qwen・Kimi・GPT-4.1の3モデルで再現
荒唐無稽な偽情報6件で検証
複数形式の警告文でも効果なし

訓練データへの示唆

ハルシネーションの根本原因を示唆
否定ラベルだけでは汚染を防げず
訓練データの構造的見直しが必要

国際研究チームが発表したプレプリント論文によると、大規模言語モデル(LLM)は訓練データに含まれる虚偽の情報を、「この情報は虚偽である」と明示的に警告しても排除できないことがわかりました。「否定無視(negation neglect)」と呼ばれるこの現象は、LLMがなぜ頻繁にハルシネーションを起こすのかを説明する手がかりになると指摘されています。

実験では「エド・シーランが2024年パリ五輪の100m走で金メダルを獲得した」など、明らかに虚偽とわかる6つの主張を用意しました。研究チームはこれらの偽情報を含む数千件の合成文書をLLMに生成させ、ニューヨーク・タイムズのコラムやRedditのコメントなど、もっともらしい形式で作成しました。

合成文書を使ったファインチューニング後、Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1の3モデルすべてで偽情報への「信念率」が急上昇しました。Qwenでは調整前の2.5%から92.4%へと跳ね上がっています。研究の核心は、虚偽であることを繰り返し、さまざまな表現で明示しても、この信念率がほとんど下がらなかった点です。

この結果は、訓練データに否定ラベルを付けるだけではLLMの知識汚染を防げないことを示しています。LLMの信頼性を高めるには、虚偽情報を含むデータそのものを排除するか、訓練プロセスの構造的な見直しが求められます。AIを業務に導入する企業にとって、モデルの出力を鵜呑みにせず検証する体制がますます重要になるでしょう。

DeepSeek V4が75%値下げを恒久化、企業AI市場の価格構造を揺さぶる

価格と性能の両立

V4 Proの75%恒久値下げを発表
入力単価でClaude Sonnet7分の1
出力単価でGPT-5.5-Medの17分の1
キャッシュ読込は西側クラウド87倍安価

技術的な独自設計

KVキャッシュ使用量を90%削減する圧縮注意機構
100万トークン処理にHBMわずか5.48GB
FP4量子化で2倍の推論速度を実現

企業導入への影響

オープンウェイト+MITライセンスで自社運用可能
OpenRouterでトークン使用量首位を獲得

中国のAIスタートアップDeepSeekは2026年5月、フラッグシップモデルV4 Proの75%値下げを恒久措置とすると発表しました。標準入力コストは100万トークンあたり0.435ドル、標準出力は0.87ドルに設定され、AnthropicClaude SonnetOpenAIGPT-5.5-Medを大幅に下回ります。とりわけキャッシュ読込単価は100万トークンあたり0.003625ドルと、西側クラウドの87分の1という水準です。エージェント処理ではトークンの80〜90%がキャッシュ読込であるため、この価格差の実務的インパクトは極めて大きいといえます。

この低コストを支えるのが、DeepSeek独自のハードウェア・ソフトウェア協調設計です。圧縮スパースアテンション(CSA)と高圧縮アテンション(HCA)を組み合わせたハイブリッド注意機構により、100万トークンの文脈窓でKVキャッシュ使用量を90%削減しました。さらにMulti-head Latent Attention(MLA)で重いデータペイロードをGPUの高帯域メモリからシステムメモリへオフロードし、1.6兆パラメータモデルの100万トークン処理に必要なHBMをわずか5.48GBに抑えています。従来型のモデルでは同条件で89GBを消費するため、差は歴然です。

企業のトークンコスト問題も追い風です。UberはClaude CodeCursorの2026年度予算をわずか4カ月で使い切り、PinterestはオープンソースのQwenを自社データで追加学習して90%のコスト削減を達成しました。VentureBeatの調査によれば、企業のAIモデル選定基準で「トークン単価・ライセンスモデル」の重視度は2026年1月の25.4%から3月には36.7%へ上昇しています。自社管理の推論スタックを導入する企業も11.3%から17.9%へ増加しました。

開発者向けルーティングサービスOpenRouterでは、DeepSeek V4 Flashが週間トークン使用量で首位を獲得し、上位3モデルの合計は約6兆トークンに達しました。一方、OpenAIGPT-5.5は15位の4,700億トークンにとどまっています。V4 ProとV4 FlashはいずれもオープンウェイトかつMITライセンスで公開されており、企業は自社環境での自由なデプロイが可能です。

もっとも、地政学的リスクは無視できません。米国の金融・医療・防衛分野の大企業にとって、中国製モデルのサプライチェーンリスクや制裁リスクは依然として障壁です。一方、記事はAnthropicのようなプレミアムソフトウェア統合型のラボと、汎用APIトークン収入に依存するOpenAIとでは影響度が異なると指摘しています。高精度が求められるミッションクリティカルな業務にはプレミアムモデル、大量トークンを消費するバックグラウンドエージェント処理にはオープンウェイトという二層構造が、企業AIの新たな標準になりつつあります。

LLM推論の自動最適化でトークン消費69.5%削減

AutoTTSの仕組み

推論戦略の設計を自動化
オフライン再生環境で低コスト探索
幅と深さの制御を統合的に最適化
信頼度の推移で停止判断

精度とコストの両立

トークン消費を最大69.5%削減
8テスト中5件で精度も向上
探索コストはわずか39.90ドル
フレームワークをGitHubで公開

MetaGoogleなどの研究者が、大規模言語モデル(LLM)の推論時に使うテストタイムスケーリング(TTS)戦略を自動設計するフレームワーク「AutoTTS」を発表しました。従来は人間の直感に頼って手作業で設計していたTTS戦略を、探索AIエージェントが自動で発見・最適化します。実験ではトークン消費量を最大69.5%削減しながら精度を維持し、一部のベンチマークではすべての手動設計手法を上回る精度を達成しました。

TTS はLLMの推論時に追加の計算資源を与えて性能を高める手法です。複数の推論パスを生成し、中間ステップを評価してから最終回答を導きます。しかし、いつ推論を分岐させるか、どの枝を剪定するか、いつ停止するかといった制御ルールは、これまで研究者が試行錯誤で設計していました。この手動プロセスでは膨大な戦略空間のごく一部しか探索できず、精度とコストのトレードオフが最適化されないまま運用されていたのです。

AutoTTSは戦略設計をアルゴリズムによる探索問題として再定義します。探索用LLMエージェント推論制御ポリシーを繰り返し提案・テストし、事前収集した推論軌跡データを使ったオフライン再生環境で評価します。このアプローチにより、実際にモデルを都度推論させる必要がなく、わずか39.90ドル・160分で最適戦略の発見が可能になりました。発見された「Confidence Momentum Controller」は、信頼度の指数移動平均による停止判断、幅と深さの連動制御、合意形成中の枝への計算資源優先配分など、人間には設計困難な複合ルールを備えています。

Qwen3モデル(0.6B〜8Bパラメータ)での実験では、コスト重視モードでSelf-Consistency比69.5%のトークン削減を達成しつつ平均精度を維持しました。GPQA-Diamondベンチマークでは推論トークンが51万から15.1万に減少し、精度はわずかに向上。DeepSeek-R1モデルでもトークン消費をほぼ半減しながら最高精度を記録しています。

企業にとっての意義は2つあります。第一に、推論コストの大幅な削減です。LLMのAPI利用料はトークン単位で課金されるため、69.5%の削減はそのまま運用コスト圧縮につながります。第二に、自社モデルや独自タスクに特化した推論戦略を低コストで開発できる点です。AutoTTSのフレームワークとConfidence Momentum ControllerはGitHubで公開されており、既存のTTSコントローラーと差し替えて利用できます。

Reachy Miniが完全ローカルAI会話に対応

完全ローカル音声パイプライン

クラウド不要で音声AI会話を実現
VAD・STT・LLM・TTSの4段構成
Silero VADとParakeet STTを採用
Qwen3-TTSで多言語音声合成

柔軟なLLM構成と導入手順

llama.cppやMLXなど複数推論基盤に対応
Gemma 4推奨、vLLMも利用可能
brew一発でインストール完了
LAN経由でロボットと接続

Hugging Faceは2026年5月27日、小型ヒューマノイドロボット「Reachy Mini」の音声会話機能を完全にローカル環境で実行する方法を公開しました。従来はクラウドへの音声送信が必要でしたが、同社のspeech-to-speechライブラリを使い、VAD(音声区間検出)からSTT(音声認識)、LLM(大規模言語モデル)、TTS(音声合成)までの全パイプラインをローカルマシン上で動作させることが可能になりました。

技術構成はカスケード方式を採用しています。音声区間検出にはSilero VAD v5、音声認識にはParakeet-TDT 0.6B v3、音声合成にはQwen3-TTSを推奨構成として選定しています。各コンポーネントは独立しており、より高品質なモデルが登場すれば個別に差し替えられる設計です。

LLMの推論基盤はllama.cpp、MLX、Transformers、vLLMなど複数の選択肢に対応しています。推奨モデルはGemma 4のE4B量子化版で、llama.cppでは`brew install`一発で導入でき、64Kコンテキストウィンドウとフラッシュアテンションによる高速推論が可能です。Apple Silicon搭載MacではMLX経由でQwen3-4Bも低遅延で動作します。

プライバシーとコスト面のメリットも大きいです。音声データが一切外部に送信されず、APIの従量課金も不要になります。ロボット推論サーバーを別マシンで動かす場合も、LAN内のIPアドレスを指定するだけで接続できます。

Responses APIプロトコルに準拠しているため、ローカル推論だけでなくHugging Face Inference EndpointsやOpenAI互換プロバイダーへの接続も同じインターフェースで切り替え可能です。vLLM 0.21.0以降ではMulti-Token Predictionによるさらなる低遅延化も実現しています。

企業IT運用ベンチマークで最先端AIも正答率50%未満

ITBench-AAの概要

IBM等が企業IT障害診断を評価
Kubernetes障害59問で構成
全最先端モデルが正答率50%未満
SRE・FinOps・CISO領域へ拡張予定

モデル性能とコスト

Claude Opus 4.7が47%で首位
GPT-5.5が46%で僅差の2位
OSSモデルGLM-5.1が40%で健闘
試行回数の多さは精度に直結せず

IBMとArtificial Analysisは2026年5月27日、企業向けIT運用タスクでAIモデルの実力を測る初のベンチマーク「ITBench-AA」を公開しました。第1弾はサイト信頼性エンジニアリング(SRE)領域で、Kubernetesの障害対応を題材に59問が用意されています。モデルはログ・トレース・メトリクスなどを読み解き、インシデントの根本原因となるエンティティを特定する必要があります。

評価の結果、最も高いスコアを記録したのはClaude Opus 4.7(Adaptive Reasoning、Max Effort)の47%で、GPT-5.5(xhigh)が46%、Qwen3.7 Maxが42%と続きました。いずれも50%に届いておらず、既存のエージェント向けベンチマークの中で最も飽和度が低い部類に入ります。企業のIT運用自動化においてAIが実用水準に達するにはまだ距離があることが浮き彫りになりました。

興味深い知見として、試行ターン数の多さが精度向上に結びつかない点が挙げられます。GPT-5.5は平均31ターンで46%を達成した一方、Gemini 3.1 Pro Previewは平均83ターンを費やしながら30%にとどまりました。過剰な調査は障害注入メカニズムや付随症状を誤検出として拾いやすく、精度を下げる要因になっています。

コスト効率ではオープンウェイトモデルが存在感を示しています。Gemma 4 31B(Reasoning)はタスクあたり0.14ドルで37%を記録し、2.23ドルのGemini 3.1 Pro Preview(30%)をスコア・コストの両面で上回りました。GLM-5.1(Reasoning)も1.23ドルで40%と、商用モデルに匹敵する性能を低コストで実現しています。首位のClaude Opus 4.7はタスクあたり5.38ドルと最も高額であり、精度とコストのトレードオフが鮮明です。

ITBench-AAは今後、FinOps(財務運用)やCISO(情報セキュリティ)領域にも拡張される予定です。IBMが長年培った企業IT運用の専門知識を基盤としたデータセットと、Artificial Analysisのモデル評価ノウハウを組み合わせた本ベンチマークは、エージェント型AIの企業適用を見極める重要な指標になると期待されています。

HF、差分同期で1兆パラメータ更新を高速化

差分同期の仕組み

bf16精度で99%の重みが不変
変化要素のみ疎形式で送信
ペイロードが1.2GBから最大35MBに
推論の停止時間を約1秒に短縮

分散学習の実現

Hub Bucketで重みを中継
訓練と推論がクラスタ不要で分離
vLLM拡張で30行の実装
Spacesで完全分散学習を実証

Hugging Faceは、非同期強化学習における重み同期のボトルネックを解消する「Delta Weight Sync」をTRLライブラリに実装しました。従来、非同期RLでは訓練ステップごとにモデル全体を推論エンジンに転送する必要があり、7Bモデルで14GB、1兆パラメータ規模では約1TBものデータ転送が発生していました。この技術はオープンソースとしてTRLのPR #5417で公開されています。

Delta Weight Syncの核心は、bf16精度における重み更新の数学的特性にあります。bf16の仮数部は7ビットしかなく、RLの学習率で生じる微小な更新の大部分はbf16の丸めに吸収されるため、連続する2ステップ間でおよそ99%の重みがビット単位で同一のままです。この性質を利用し、変化した要素だけをsafetensors形式のスパースファイルとして符号化することで、Qwen3-0.6Bモデルでは1ステップあたりの転送量を1.2GBから20〜35MBへと大幅に削減しました。

アーキテクチャはHub Bucketを介した3ボックス構成を採用しています。訓練ノードがスパースな差分をBucketにアップロードし、vLLMの推論サーバーがそれをダウンロードして適用します。訓練側と推論側が直接通信する必要はなく、共有クラスタもRDMAもVPNも不要です。vLLM側の実装はWeightTransferEngineの拡張としてわずか30行程度で、フォークなしで既存のvLLMに組み込めます。

実証実験では、訓練用GPU、vLLMを動かすHugging Face Space、Wordle環境を動かす別のSpaceという3つの独立したマシンで完全な分散学習を実行しました。いずれもネットワークを共有せず、Hub Bucketのみで接続されています。報酬は順調に上昇し、差分ペイロードは20〜35MBの範囲を維持しました。

Llama-3.1-405Bに適用した場合の試算では、従来のNCCLによる全同期で約8秒かかる推論停止が、差分転送では数秒に短縮され、転送量は約130分の1になると見込まれています。1兆パラメータ規模ではFireworksの実測値で約50倍の削減が示されており、クラウド間をまたぐ分散学習においてオブジェクトストレージ経由の差分同期が唯一の現実的な選択肢になりつつあります。

拡散型言語モデルでNVIDIAが推論6倍速を実現

3つの推論モードを統合

自己回帰と拡散生成を1モデルに統合
自己投機モードで精度維持と高速化を両立
3B・8B・14Bの3サイズで提供
商用利用可能なライセンスで公開

速度と精度の両立

拡散モードでAR比2.6倍の生成効率
自己投機で最大6.4倍の高速化を達成
8BモデルがQwen3 8Bを精度1.2%上回る
B200で毎秒約865トークンを記録

NVIDIAは2026年5月23日、自己回帰(AR)と拡散(Diffusion)の両方の生成方式を1つのモデルに統合した言語モデルファミリー「Nemotron-Labs Diffusion」を公開しました。3B・8B・14Bのテキストモデルと8Bのビジョン言語モデルをHugging Face上で提供し、商用利用可能なライセンスで配布しています。

従来の大規模言語モデルはトークンを1つずつ逐次生成する自己回帰方式を採用しており、GPUの演算能力を十分に活用できないという課題がありました。Nemotron-Labs Diffusionは複数トークンを並列に生成し、段階的に修正する拡散方式を導入することで、この制約を突破します。生成済みトークンの修正も可能なため、誤りの伝播を抑制できます。

同モデルは3つの推論モードを備えています。従来通りの自己回帰モード、32トークン単位でブロック生成する拡散モード、そして拡散で下書きし自己回帰で検証する自己投機モードです。自己投機モードでは温度0で自己回帰と同一の出力品質を維持しながら、大幅な高速化を実現します。

性能面では、8BモデルがQwen3 8Bに対し平均精度で1.2ポイント上回りました。推論速度はハードウェア非依存の指標であるTPF(tokens per forward pass)で、拡散モードがAR比2.6倍、自己投機モードが最大6.4倍を達成しています。NVIDIA B200上のベンチマークでは毎秒約865トークンの生成速度を記録しました。

学習にはNVIDIAのNemotron事前学習データセットから1.3兆トークン、ファインチューニングに450億トークンを使用しています。推論エンジンSGLangでの対応が進んでおり、設定1行の変更で3モードを切り替え可能です。学習コードもMegatron Bridgeフレームワーク経由で公開されており、開発者はすぐに利用を開始できます。

LLM記憶を0.12%の追加パラメータで実現する新手法

delta-memの仕組み

固定サイズ行列に履歴を圧縮
モデル本体の重みは凍結のまま
デルタルール学習で動的に更新
ゲート機構で忘却と記憶を制御

性能と効率の両立

Memory Agent Benchで29%→38%に向上
テスト時学習は26→50点にほぼ倍増
GPU消費量は未修正モデルとほぼ同等

実用化の方向性

RAGとのハイブリッド構成が現実解

Mind Labと複数大学の研究チームは2025年5月、LLMエージェントの長期記憶問題を解決する新手法「delta-mem」を発表しました。この手法はエージェントの過去のやり取りを固定サイズの行列に圧縮し、モデル本体を変更せずに動的な記憶を実現します。追加パラメータはバックボーンモデルのわずか0.12%にとどまり、競合手法の76.40%と比較して圧倒的に軽量です。

従来のアプローチには大きな課題がありました。コンテキストウィンドウの拡張はコストが増大し、トークン数が増えるほど二次関数的に計算量が膨れ上がります。RAGは外部検索の遅延や統合の複雑さを伴います。パラメトリック手法は学習後に固定され、推論時の新情報に適応できません。delta-memはこれらの問題を、連想記憶の「オンライン状態」として履歴を保持することで解決しています。

技術的には、LLMの隠れ状態を行列に射影して過去の記憶を検索し、数値的な補正としてモデルの推論に適用します。更新は「ゲート付きデルタルール」で制御され、どの程度の旧記憶を保持し、新記憶をどれだけ反映するかを自動調整します。更新戦略は3種類あり、大規模モデルにはシーケンス単位の書き込み、小規模モデルにはマルチステート書き込みが有効と判明しました。

Qwen3-4B-Instructでの評価では、平均スコアが凍結ベースラインの46.79%から51.66%に向上しました。記憶集約型のMemory Agent Benchでは29.54%から38.85%へ改善し、テスト時学習サブタスクでは26.14から50.50へとほぼ倍増しています。32,000トークンの推論テストでも、GPU消費量は未修正モデルとほぼ同一でした。

研究チームはコードをGitHub、学習済みアダプタの重みをHugging Faceで公開しています。共著者のJingdi Lei氏は、delta-memは高速で継続的に更新される「作業記憶」として最適であり、正確な事実の検索にはRAGが依然として適していると述べています。企業のAIスタックは今後、モデル内部の短期作業記憶とRAGによる長期明示記憶の階層構造へ進化していくとの見通しを示しました。

マルチエージェントAIのトークン消費を75%削減する新手法

テキスト通信の限界

エージェント間テキスト生成が遅延とコスト増の原因
逐次テキスト生成で推論速度が律速
全モデルの重み更新は計算コストが膨大

潜在空間での協調

RecursiveLinkで埋め込み空間を直接伝達
モデル重みは凍結し軽量モジュールのみ学習
同一基盤モデルメモリ共有が可能

精度と効率の両立

ベースライン比で平均精度8.3%向上
推論速度最大2.4倍、訓練コスト半減

イリノイ大学アーバナ・シャンペーン校とスタンフォード大学の研究チームが、マルチエージェントAIシステムの新フレームワーク「RecursiveMAS」を発表しました。従来のマルチエージェントシステムはエージェント間でテキストを生成・共有して連携しますが、これが遅延やトークンコスト増大の主因となっていました。RecursiveMASはテキストの代わりに埋め込み空間(潜在表現)を直接受け渡すことで、この根本的なボトルネックを解消します。

RecursiveMASの中核技術は「RecursiveLink」と呼ばれる軽量な2層モジュールです。各エージェントの最終隠れ層の状態をそのまま次のエージェントの入力埋め込み空間へ変換し、テキストへのデコードを経ずに情報を伝達します。内部用と外部用の2種類があり、異なるモデルアーキテクチャ間でも埋め込み次元を橋渡しできます。基盤モデルの重みは凍結したまま、RecursiveLinkのパラメータ(全体の約0.31%、約1300万パラメータ)のみを学習するため、訓練コストを大幅に抑えられます。

9つのベンチマーク数学医療推論、コード生成、検索ベースQA)での評価では、最強のベースラインに対し平均8.3%の精度向上を達成しました。特に推論負荷の高いタスクではTextGradを18.1%上回っています。テキスト生成を省略できるため、エンドツーエンドの推論速度は最大2.4倍に向上し、3ラウンド目のトークン使用量は75.6%削減されました。GPU最大メモリ使用量も最小で、訓練コストはフルファインチューニングの半分以下です。

同一の基盤モデルを使う複数エージェントではバックボーンを共有でき、GPUメモリの重複ロードも不要です。これらの効率改善により、企業のエージェント本番運用で課題となる計算コストの障壁を大きく引き下げます。研究チームはコードと学習済みモデルの重みをApache 2.0ライセンスでオープンソース公開しており、QwenLlama-3・Gemma3・Mistralなど主要なオープンモデルでの利用が可能です。

OSS Mac用AIサーバーOsaurusが注目集める

ローカルとクラウドの統合

ローカル・クラウドAIを自在に切替
ファイルやツールを自端末に保持
仮想サンドボックスで安全性を確保

充実の機能と今後の展望

20以上のネイティブプラグイン搭載
MCP対応で外部クライアントと連携
累計11万超ダウンロード達成
法務・医療など企業向け展開を検討

OsaurusはMac専用のオープンソースLLMサーバーで、ローカルとクラウドの両方のAIモデルを単一インターフェースで切り替えて利用できるのが最大の特徴です。元TeslaおよびNetflixのエンジニアであるTerence Pae氏が共同創業し、デスクトップAIコンパニオン「Dinoki」の開発経験から着想を得ました。ユーザーのファイルやツールをすべて自身のハードウェア上に保持したまま、AIの能力を活用できます。

技術面では、ハードウェア分離された仮想サンドボックス内でAIを実行することでセキュリティを確保しています。OpenClawやHermesといった既存のAIハーネスツールが開発者向けであるのに対し、Osaurusは開発者でも使いやすいUIを提供する点で差別化しています。MCP(Model Context Protocol)サーバーとしても機能し、メール・カレンダー・ブラウザ・Gitなど20以上のネイティブプラグインを搭載しています。

対応モデルはMiniMax M2.5、Gemma 4、Qwen3.6、LlamaDeepSeek V4などのローカルモデルに加え、OpenAIAnthropicGeminiなどのクラウドサービスにも接続可能です。Appleオンデバイス基盤モデルやLiquid AIのLFMファミリーにも対応しています。ただし、ローカル実行には最低64GBのRAMが必要で、大規模モデルには128GB以上が推奨されます。

公開から約1年で累計11万2,000回以上のダウンロードを記録しました。OllamaやLM Studioなどの競合と比較して、非開発者にも親しみやすいオプションとして位置づけています。現在、NYのアクセラレーターAllianceに参加中で、法務や医療など機密性の高い業界向けの企業展開を検討しています。Pae氏はローカルAIの性能向上が続けばデータセンター依存を減らせると展望を語っています。

業務AIアプリがそのまま学習基盤に、ML人材不要の独自モデル構築

Alchemyの仕組み

業務アプリの出力を自動で学習データ化
専門家の修正がそのまま教師データに
Expert Nano Modelsで業務特化
モデル重みは企業側が完全所有

既存手法との違い

RAGと従来ファインチューニングの第三の選択肢
別途データ整備やML人材が不要
LlamaQwen等の基盤モデルに対応

導入効果と課題

行動療法企業が記録作業を最大87%短縮
プラットフォーム依存というトレードオフ

サンフランシスコのEmpromptu AIが、企業向けカスタムAIモデル構築プラットフォーム「Alchemy Models」を発表しました。企業が運用中のAIアプリケーションから生まれる出力データを自動で収集し、社内の専門家が修正・検証した結果をそのまま学習データとして活用します。別途データセットを用意する必要がなく、ML専門チームなしでドメイン特化モデルを構築できる点が最大の特徴です。

従来、企業がAIモデルをカスタマイズするには、RAG推論時に外部知識を参照)か、独自データセットを準備してファインチューニングするかの二択でした。Alchemyはこの両者とは異なり、業務アプリケーションそのものをデータパイプラインとして機能させます。生成されるモデルは「Expert Nano Models」と呼ばれる小規模な業務特化型で、評価・ガバナンス・コンプライアンス管理もパイプライン内で一体運用されます。

CEOのShanea Leven氏は「すべての顧客がビジネスをどう守るかに悩んでいるが、その道筋が見えていない」と指摘します。Alchemyでは利用が増えるほど学習シグナルが蓄積し、モデル精度が向上するデータフライホイールが働きます。基盤モデルLlamaQwenなどに対応し、重みは顧客が完全に所有できます。

早期導入企業の行動療法企業Ascent Autismでは、セッション記録や保護者向け報告書の作成にAlchemyを活用。従来1〜2時間かかっていた文書作成が10〜15分に短縮され、最大87%の時間削減を実現しました。担当者は文書を一から書く作業から、生成結果の編集・品質確認へと役割が変化しています。

ただし課題もあります。AlchemyはEmpromptuのプラットフォーム上でのみ動作するため、ベンダーロックインのリスクが伴います。また、有効なファインチューニングには一定量の本番データの蓄積が必要で、初期段階ではベースモデルのまま運用する期間が発生します。ヘルスケア・金融・法務・小売といった規制の厳しいデータ集約型業界を主要ターゲットとしており、汎用モデルの出力ミスマッチが大きい領域ほど効果が見込まれます。

NVIDIAがAIエージェント基盤と強化学習で攻勢

Hermesエージェントの急成長

GitHub星14万超で世界最多利用
自己改善スキルで継続的に性能向上
RTX・DGX Sparkで常時稼働に最適化
Qwen 3.6が120Bモデル超えの効率実現

強化学習基盤の共同開発

AlphaGo設計者Silver氏の新会社と提携
Grace BlackwellからVera Rubinへ展開
試行錯誤型学習に特化したパイプライン構築
人間データを超えた自律的知識発見が目標

NVIDIAAIエージェント基盤強化学習インフラの両面で大型の取り組みを発表しました。Nous Research開発のエージェントフレームワーク「Hermes Agent」はGitHub星14万超・世界最多利用エージェントとなり、NVIDIAのRTX PCおよびDGX Sparkでの常時稼働に最適化されています。同時に、AlphaGo設計者David Silver氏が設立したIneffable Intelligenceとの強化学習基盤の共同開発も始動しました。

Hermes Agentの最大の特徴は自己改善能力です。複雑なタスクに直面するたびに学習内容をスキルとして保存し、継続的に性能を向上させます。サブエージェントを短命の独立ワーカーとして扱う設計により、300億パラメータ級のローカルモデルでも安定動作を実現しています。Nous Researchがスキルやツールを厳選・テストしているため、他のフレームワークにありがちなデバッグの手間が大幅に削減されています。

ハードウェア面では、Qwen 3.6 35Bモデルが約20GBのメモリで1200億パラメータモデルを上回る性能を発揮し、DGX Sparkの128GB統合メモリ・1ペタフロップスのAI性能と組み合わせることで、高度なエージェントワークフローを終日実行できます。LM StudioやOllamaとの統合もすぐに利用可能で、ローカルAIの導入障壁を下げています。

一方、Ineffable Intelligenceとの提携強化学習の次世代インフラ構築を目指すものです。事前学習が固定データセットを処理するのに対し、強化学習はデータをリアルタイムに生成するため、インターコネクトやメモリ帯域に独自の負荷がかかります。NVIDIAJensen Huang CEOは「超学習者 - 経験から継続的に学ぶシステム」のインフラを共同設計すると表明しました。

技術的にはGrace Blackwell上での開発を皮切りに、次世代プラットフォームVera Rubinへの展開も視野に入れています。Silver氏は「人間が既に知っていることを学ぶAIの問題は概ね解決された。次は自ら新しい知識を発見するシステムが必要だ」と述べており、シミュレーションと経験を通じた学習で科学的ブレークスルーを実現する構想です。NVIDIAはエッジからデータセンターまで、AI基盤の全領域で存在感を強めています。

CNC加工の可否判定をマルチエージェントAIで自動化

システム構成と狙い

STEPファイルから形状を自動抽出
5段階パイプラインで製造可否を判定
LLMと決定論的処理の適材適所な使い分け
完全オンプレミスで顧客の機密図面を保護

技術スタックと成果

AMD MI300XQwen 2.5 7Bを稼働
全工程25〜40秒で分析完了
vLLM・LangChain・cadqueryを統合
ハッカソンで実用性を実証

AMDの開発者ハッカソンで、CNC加工の製造可否を自動判定するマルチエージェントシステム「MachinaCheck」が発表されました。従来、町工場の管理者が図面を手作業で読み、工具の在庫を確認し、公差を満たせるか検討する作業には1件あたり30〜60分かかっていました。MachinaCheckはこの工程を30秒程度に短縮します。

システムはSTEPファイル(標準的な3D CADフォーマット)をアップロードするだけで利用できます。Python製のパーサーがOpenCASCADEベースで穴径・表面積・面取りなどの形状特徴を数学的に正確に抽出し、その結果をもとにQwen 2.5 7Bが必要な加工工程と工具を分類します。工具の在庫照合はLLMを使わず純粋なデータベースクエリで処理し、速度と正確性を両立させています。

最終的にLLMが総合的な製造可否を判定し、不足工具の購入提案やリスク要因を含む構造化レポートを生成します。全パイプラインはAMD Instinct MI300X(192GB HBM3)上でvLLMを介して稼働しており、推論レイテンシは1回あたり3秒未満です。

オンプレミス運用へのこだわりは単なる技術的選択ではなく、ビジネス上の必須要件です。製造業の顧客はNDAのもとでSTEPファイルを提供しており、その形状データには数百万ドル規模のR&D;投資が反映されています。外部APIへのデータ送信は機密保持違反にあたるため、すべての処理をローカルで完結させる設計が採用されました。

開発チームは、LLMを推論が必要な箇所だけに限定し、データベース検索のような確定的処理には従来のプログラミングを使うという設計原則が有効だったと報告しています。MI300Xの192GB VRAMがあれば、より大規模なQwen 2.5 72Bも搭載可能であり、本番環境での推論品質向上も視野に入っています。

OncoAgent、がん診療AIをオープンソースで実現

システム構成と技術基盤

8ノードのLangGraphで臨床推論を分解
9Bと27Bの2段階モデルで症例難度に応じ切替
70超のNCCN/ESMOガイドラインをRAGで参照
3層の安全検証で幻覚出力を遮断

MI300Xでの学習成果

26.7万症例のQLoRA学習を約50分で完了
合成データ生成はAPI比56倍の高速化
全工程を1台で完結し患者データの外部送信なし

オープンソースのがん領域臨床意思決定支援システム「OncoAgent」の技術論文が、Hugging Faceブログで2026年5月9日に公開されました。OncoAgentは、LangGraphによる8ノードのマルチエージェント構成と、4段階の補正RAGパイプラインを組み合わせ、NCCNやESMOなど70以上の医師向けガイドラインに基づく回答生成を実現しています。患者データを外部クラウドに送信しない「Zero-PHIポリシーを掲げ、院内オンプレミス環境での完結運用を前提に設計されています。

モデルは症例の複雑さに応じて2段階に分かれます。加重スコアリングにより、ステージIVや複数遺伝子変異を伴う高難度症例は27Bパラメータの深層推論モデル(Tier 2)へ、それ以外は9Bパラメータの高速トリアージモデル(Tier 1)へ自動ルーティングされます。いずれもQwen系モデルをベースに、QLoRAで微調整されています。

学習には実症例と合成データを合わせた26万6,854件のOncoCoTコーパスが使われました。AMD Instinct MI300X(192GB HBM3)上でUnslothフレームワークとシーケンスパッキングを活用し、当初5時間と見積もられた学習を約50分に短縮しています。合成データ生成もAPI経由の毎時120件に対し、MI300X上では毎時6,800件と56倍の速度を達成しました。

安全面では、検索ゲート・信頼度ゲート・リフレクション批評・人間介入(HITL)の4層構造を採用しています。批評ノードはLLMではなく決定的コードで動作するため、敵対的プロンプトによる安全機構の迂回を防ぎます。RAGパイプラインでは、コサイン距離0.10を閾値とする反幻覚ポリシーにより、ドメイン外の入力には推奨を一切生成しない設計です。

現時点での課題として、学習データの約36%が合成症例であり、腫瘍専門医による大規模な精度検証はまだ実施されていません。ガイドラインも主に英語のNCCNが対象で、ESMOや他言語の臨床資料への対応は今後の課題です。コード・アダプタ重み・合成コーパスはHugging FaceGitHubで公開予定とされています。

サイバー防御特化の4Bモデル、8B超えの精度を実現

小型特化モデルの優位性

パラメータ数半分で8Bモデルに匹敵する精度
12GB消費者向けGPUローカル実行可能
機密データを外部APIに送信せず完全オンプレミス運用
Apache 2.0ライセンスで商用利用可能

訓練手法と評価結果

AMD Instinct MI300X単体で全工程完結
CTI-MCQで+8.7ポイント上回る成績
同一レシピで2Bモデルにも移植成功
CVE-CWEマッピング精度97.3%維持

想定用途と今後の展開

SOC分析官の脆弱性トリアージ支援
1Bモデルやスマートフォン向け量子化版を計画

サイバーセキュリティの防御領域に特化した小型言語モデルCyberSecQwen-4Bが、Hugging Face上でApache 2.0ライセンスのもと公開されました。AMD Developer Hackathonで開発された本モデルは、40億パラメータながら、Ciscoが公開した80億パラメータの専門モデルFoundation-Sec-Instruct-8Bと同等以上の性能を達成しています。12GB以上のGPUがあればローカルで動作し、機密性の高いセキュリティデータを外部に送信する必要がありません。

ベンチマークのCTI-Benchでは、CTI-MCQ(サイバー脅威インテリジェンスの多肢選択問題)で0.5868を記録し、8Bモデルの0.4996を8.7ポイント上回りました。CVEからCWEへのマッピング精度を測るCTI-RCMでも0.6664と、8Bモデルの97.3%の精度を維持しています。パラメータ数が半分であることを考えれば、防御用途において小型特化モデルが大型汎用モデルを凌駕しうることを示す結果です。

訓練はAMD Instinct MI300X(192GB HBM3)1基のみで完結しました。ROCm 7とvLLMスタックの組み合わせにより、量子化や勾配チェックポイントなどの工夫なしにbf16精度でフル学習が可能でした。訓練データはMITRE/NVD公開レコードからの2021年CVE-CWEマッピングと、教師モデルから生成した合成Q&A;データで構成され、評価セットとの重複は事前に除去されています。

同一の訓練レシピをGemma-4-E2Bに適用したGemma4Defense-2Bも作成され、CTI-RCMで0.9ポイント差に収まる結果を得ました。レシピの再現性と移植性が確認されたことで、組織ごとのライセンス要件やデプロイ規模に応じた基盤モデルの選択が可能です。

想定用途はCWE分類、CVE-CWEマッピング、構造化されたサイバー脅威インテリジェンスQ&A;など、SOC分析官の日常業務を支援する領域です。今後はノートPC向けの1Bモデル、スマートフォンやエッジ機器向けのGGUF量子化版、新規CVEへの継続的評価、プロンプトインジェクション耐性の強化が計画されています。エアギャップ環境や医療・政府機関など、外部API接続が制限される現場への展開が期待されます。

中国Moonshot AIが20億ドル調達、評価額200億ドルに

資金調達の全容

美団系VC20億ドルのリード
評価額は半年で約5倍に急騰
過去6カ月の累計調達額は39億ドル

急成長の背景

Kimi K2.6がOpenRouter利用数2位
ARRが4月に2億ドル突破
中国オープンウェイトモデルへの投資家需要が急拡大

中国AI業界の競争激化

DeepSeek450億ドル評価で初の外部調達へ
Zhipu AI・MiniMaxは香港上場済み

中国のAIスタートアップMoonshot AIが約20億ドル資金調達を実施し、評価額200億ドルに達しました。リードインベスターは美団のVC部門Long-Z Investmentで、清華資本、中国移動、CPE元豊なども参加しています。同社の評価額は2025年末の43億ドルから半年で約5倍に跳ね上がりました。

Moonshot AIは2023年に元Meta AI・Google Brainの研究者楊植麟氏が設立しました。オープンウェイトの大規模言語モデル「Kimi」シリーズが高い性能で注目を集め、最新のKimi K2.6はAIモデル配信プラットフォームOpenRouterで利用数2位にランクインしています。コーディング性能ではOpenAIAnthropicのモデルに迫る水準を示しました。

事業面では、有料サブスクリプションとAPI利用の急拡大により、年間経常収益(ARR)が4月時点で2億ドルを超えました。中国発のオープンウェイトモデルに対する投資家の関心が急速に高まっていることが、今回の大型調達の背景にあります。

中国AI業界全体が活況を呈しています。DeepSeek評価額約450億ドルで初の外部資金調達を検討中と報じられ、Zhipu AIMiniMaxはすでに香港市場に上場し、それぞれ時価総額約559億ドル、330億ドルに達しています。Moonshot AIのモデルはOpenAIChatGPTGoogleGeminiAnthropicClaude、さらにByteDanceのDoubao、AlibabaのQwenなどと競合しており、中国AIスタートアップ間の競争は一段と激しさを増しています。

Alibabaの新手法、AIエージェントの無駄なツール呼び出しを98%から2%に削減

HDPOの仕組み

精度と効率を独立した2軸で最適化
正確性を先に学習し効率は後から向上
不正解の高速応答に報酬を与えない設計
従来の結合型報酬の最適化矛盾を解消

Metisエージェントの成果

冗長ツール呼び出しを98%から2%に削減
8Bモデルで30Bモデルを上回る精度
Apache 2.0でコードとモデルを公開
視覚認識と数学推論の両方で最高水準

Alibaba研究チームは2026年4月、AIエージェントが外部ツールを過剰に呼び出す問題を解決する強化学習フレームワーク「HDPO(Hierarchical Decoupled Policy Optimization)」を発表しました。大規模言語モデルは従来、Webの検索やコード実行などのツールを盲目的に呼び出す傾向があり、レイテンシの増大、APIコストの浪費、推論精度の低下を引き起こしていました。

HDPOの核心は、タスクの正確性と実行効率を2つの独立した最適化チャネルに分離する点にあります。従来の手法では両者を1つの報酬信号にまとめていたため、効率のペナルティを強くすると必要なツール使用まで抑制され、弱くするとツール乱用を防げないという矛盾がありました。HDPOは不正解の応答にはツール節約の報酬を一切与えず、学習初期は正確性に集中し、推論能力の成熟に応じて効率シグナルを段階的に強化する暗黙的なカリキュラム学習を実現します。

このフレームワークで訓練されたマルチモーダルエージェントMetis」は、Qwen3-VL-8B-Instructをベースとする80億パラメータモデルでありながら、冗長なツール呼び出し率を98%から2%に削減しました。視覚認識や数学推論ベンチマークでは、300億パラメータのSkywork-R1V4を含む既存のエージェントモデルを上回る精度を達成しています。

研究チームはMetisのモデルとHDPOのコードをApache 2.0ライセンスで公開しました。論文では「戦略的なツール使用と高い推論性能はトレードオフではなく、ノイズの多い冗長なツール呼び出しの排除が精度向上に直接寄与する」と結論づけており、ツール使用の「実行方法」を教えるだけでなく「いつ使わないか」のメタ認知を育てるパラダイムシフトを提唱しています。

SenseTime、高速画像生成の新モデルを公開

モデルの技術的特徴

画像テキスト変換せず直接処理
既存モデルより大幅に高速な生成
PCやスマホでも動作可能な軽量設計

中国半導体との連携

中国チップ10社が互換性を確認
オープンソースで国際連携を維持
ロボティクス分野への応用を視野

SenseTimeの戦略転換

顔認識大手から生成AIへ軸足
反復速度重視でオープンソース選択

米国の制裁対象である中国AI企業SenseTimeは4月29日、オープンソースの画像生成モデル「SenseNova U1」を公開しました。同モデルは画像をテキストに変換せず直接処理する独自技術「NEO-Unify」を採用しており、米国の競合モデルを大幅に上回る速度で画像の生成と解釈が可能だと同社は主張しています。

U1の最大の特徴は、画像をネイティブに「読む」能力にあります。従来のモデルが画像を一度テキストに変換して処理するのに対し、U1は画像のまま推論を行うことで処理速度を向上させ、必要な計算資源を削減しています。共同創業者のDahua Lin氏は「モデルの推論プロセスはもはやテキストに限定されない」と述べています。モデルはPCやスマートフォンでも動作可能な軽量設計で、幅広い活用が期待されます。

注目すべきは、U1が中国チップで動作する点です。公開日にはCambricon、Biren Technologyなど10社の中国半導体メーカーが互換性を発表しました。米国の輸出規制により最先端AI半導体へのアクセスが制限される中、中国チップへの対応は戦略的に重要な意味を持ちます。SenseTimeはHugging FaceGitHubでモデルを無料公開しており、中国企業がオープンソースAIの主要な貢献者となっている傾向をさらに強めています。

技術的な性能面では、U1は市場の全オープンソースモデルを上回る画質を実現したとSenseTimeは主張しています。AlibabaのQwenByteDanceのSeedreamといった中国のクローズドソースモデルに匹敵する一方、OpenAIGPT-Image-2.0にはまだ及ばないとされています。ただし速度面ではこれらすべてのモデルを凌駕するとのことです。

SenseTimeはかつて顔認識技術で世界をリードしていましたが、ChatGPT以降の生成AIブームでDeepSeekやMiniMaxなど新興企業に後れを取っていました。同社はオープンソース戦略により研究者からのフィードバックを得て反復速度を高める方針に転換。Lin氏は「オープンかクローズドかではなく、反復の速度こそが勝敗を分ける」と語っています。また、この技術はロボットが視覚情報を高速に処理するうえで特に有用であり、中国ヒューマノイドロボット市場への展開も見据えています。

Poolsideがローカル実行可能な無料コーディングAIモデルを公開

Lagunaモデルの概要

Apache 2.0で公開のXS.2
33Bパラメータ、活性3Bの軽量MoE
ローカルGPU1枚で動作可能
企業向け225BのM.1も同時発表

性能と開発環境

SWE-bench Proで44.5%達成
独自合成データとRLで訓練
ターミナル型エージェントpool提供
モバイル対応IDE shimmer公開

米AIスタートアップPoolsideは2026年4月28日、コーディング特化の大規模言語モデル「Laguna」シリーズ2モデルを発表しました。小型モデルのLaguna XS.2はApache 2.0ライセンスで無料公開され、消費者向けGPU1枚でローカル実行できるのが大きな特徴です。同社は2023年にサンフランシスコで設立された約60人の組織で、政府・公共セクター向けにセキュアなAI開発を進めてきました。

Laguna XS.2は総パラメータ数33B、活性パラメータ数3BのMixture of Experts構成を採用しています。Apple SiliconのMacでは統合メモリ36GB以上、PCではRTX 5090など24〜32GB以上のVRAMがあれば4ビット量子化で動作します。一方、上位モデルのLaguna M.1は225BパラメータのMoEで、企業や政府向けの高セキュリティ環境での複雑なソフトウェア工学タスクに最適化されています。

ベンチマーク性能は注目に値します。XS.2はSWE-bench Proで44.5%を達成し、Claude Haiku 4.5の39.5%やGemma 4 31Bの35.7%を上回りました。M.1もSWE-bench Proで46.9%、SWE-bench Verifiedで72.5%を記録しています。訓練には30兆トークンが使われ、そのうち約13%は合成データです。独自のMuonオプティマイザにより標準手法より約15%速く学習が進むとしています。

開発者向けツールも同時に公開されました。poolはターミナルベースのコーディングエージェントで、同社が内部のRL訓練に使うのと同じAgent Client Protocolサーバとして機能します。shimmerクラウドネイティブの開発環境で、スマートフォンからでもフル機能の開発が可能です。GitHubとの連携や既存リポジトリのインポートにも対応しています。

Poolsideがオープンウェイト公開に踏み切った背景には、「西側諸国には強力なオープンウェイトモデルが必要」という信念があります。中国企業のDeepSeekやXiaomiが低コストのオープンモデルで存在感を示すなか、米国発のオープンな対抗馬として位置づけを狙っています。なお、同社のモデルは他社のようにQwenベースのファインチューニングではなく、独自にゼロから訓練されたものです。コミュニティによる評価とファインチューニングを通じた改善を期待しているとしています。

AIモデル5種のソーシャルエンジニアリング能力を検証

AIが生成する巧妙な詐欺

DeepSeek-V3が標的に合わせた攻撃文を自動生成
個人の関心事を織り込んだ自然な誘導
複数回のやり取りで信頼を構築
攻撃の全工程を自動化可能

防御と対策の現在地

攻撃の巧妙さより規模拡大が本質的脅威
企業攻撃の9割は人的リスクが起点
オープンソースモデルが防御側にも不可欠
AI監視ツールで詐欺メッセージを検知

Charlemagne Labsが開発したツールを用いて、5種類のAIモデルによるソーシャルエンジニアリング攻撃の能力が検証されました。テストではAIが攻撃者と標的の両方の役割を演じ、数百から数千回のシミュレーションを実行します。記者自身を標的にした実験では、DeepSeek-V3が記者の関心分野を巧みに織り込んだフィッシングメッセージを生成し、複数回のメールのやり取りを通じて不正リンクへの誘導を試みました。

テストに使われたのはAnthropic Claude 3 Haiku、OpenAI GPT-4o、Nvidia Nemotron、DeepSeek-V3、Alibaba Qwenの5モデルです。すべてのモデルがソーシャルエンジニアリング手法を考案しましたが、説得力にはばらつきがありました。一部のモデルは途中で混乱して不自然な出力を返したり、倫理的な制約から攻撃の続行を拒否する場面もありました。

SocialProof社CEOのRachel Tobac氏は、AIが攻撃の巧妙さを飛躍的に高めたわけではないものの、一人の攻撃者が大規模に攻撃を展開できる点が脅威だと指摘します。音声クローンやディープフェイク動画を使った詐欺事例もすでに報告されており、攻撃パイプライン全体の自動化が進んでいます。

Charlemagne Labsの共同創業者Jeremy Philip Galen氏は、現代の企業攻撃の90%が人的リスクに起因すると述べています。同社はMetaの最新モデルMuse Sparkの能力評価にも協力しました。一方で共同創業者のRichard Whaling氏は、防御側のAIモデル訓練にオープンソースモデルが不可欠であり、健全なオープンソースコミュニティの維持が防御の鍵になると強調しています。

アラビア語LLM評価基盤QIMMAが公開

品質検証を先行する新手法

評価前にベンチマーク品質を検証
2つのLLMと人間レビューの多段階審査
109サブセット・5.2万サンプル統合
既存ベンチマークの体系的欠陥を発見

初のコード評価と透明性

アラビア語初のコード生成評価を搭載
全サンプルの推論出力を公開
99%がネイティブアラビア語コンテンツ
7ドメイン・46モデルを網羅的に評価

UAE Technology Innovation Institute(TII)の研究チームは2026年4月21日、アラビア語LLMの評価基盤「QIMMA」をHugging Face上で公開しました。QIMMAはアラビア語で「頂上」を意味し、既存ベンチマークの品質を検証してからモデル評価を行う「品質第一」のアプローチを採用しています。14のソースベンチマークから109サブセット、5万2000以上のサンプルを統合した包括的な評価スイートです。

従来のアラビア語ベンチマークには、英語からの翻訳による文化的不整合、アノテーションの不一致、誤った正解ラベルなどの体系的な品質問題が存在していました。QIMMAでは評価の前段階として、Qwen3-235BとDeepSeek-V3の2つの大規模モデルによる自動審査と、ネイティブ話者による人間レビューを組み合わせた多段階検証パイプラインを構築しています。

検証の結果、ArabicMMLUでは3.1%、MizanQAでは2.3%のサンプルが品質基準を満たさず除外されました。コードベンチマークでは、HumanEval+の88%、MBPP+の81%のアラビア語問題文に修正が必要と判明し、既存評価の信頼性に疑問を投げかけています。

リーダーボードの初期結果では、Qwen3.5-397Bが平均68.06点で首位、アラビア語特化のKarnakが66.20点で2位、Jais-2-70Bが65.81点で3位となりました。注目すべきは、モデルサイズと性能が必ずしも比例しない点で、32Bパラメータのモデルが70B以上のモデルを特定ドメインで上回るケースが確認されています。

QIMMAはオープンソース、ネイティブアラビア語コンテンツ、品質検証、コード評価、推論出力公開の5要素を兼ね備えた唯一のプラットフォームです。アラビア語は4億人以上の話者を持ちながらNLP評価の整備が遅れており、信頼性の高い評価基盤の登場は、同言語圏でのLLM開発・選定に大きな影響を与えると見られます。

Sentence Transformersがマルチモーダル埋め込みモデルの学習に対応

学習手法と実装

テキスト・画像音声動画に対応
Qwen3-VL-Embedding-2Bの微調整例を公開
視覚文書検索でNDCG@10が0.888→0.947に向上

実用的な技術要素

MatryoshkaLossで多次元埋め込みに対応
勾配キャッシュで大バッチ学習が可能
テキスト専用と同一のTrainer APIで実装
マルチモーダルリランカーの学習にも対応

Hugging Faceは2026年4月16日、Sentence Transformersライブラリでマルチモーダル埋め込みモデルとリランカーモデルを学習・微調整する方法を解説するブログ記事を公開しました。テキストだけでなく画像音声動画を扱えるモデルの学習が、既存のテキスト専用パイプラインとほぼ同じコードで実現できます。

実践例として、Qwen3-VL-Embedding-2Bを視覚文書検索タスクで微調整する手順が紹介されています。テキストクエリに対して関連するドキュメントのスクリーンショットを検索するタスクで、微調整後のモデルはNDCG@10を0.888から0.947に改善しました。これは8Bパラメータの大型モデルを含む既存のすべてのモデルを上回る成績です。

学習にはCachedMultipleNegativesRankingLossとMatryoshkaLossを組み合わせて使用します。前者は勾配キャッシュにより限られたGPUメモリでも大きな実効バッチサイズを確保でき、後者は埋め込みベクトルを任意の次元数に切り詰めても高い性能を維持できるよう訓練します。512次元への圧縮でもピーク性能の99.7%を保持するという結果が示されています。

さらに、マルチモーダルなクロスエンコーダ(リランカー)モデルの学習方法も紹介されています。画像からテキスト、テキストから画像の双方向の照合を1つのモデルで学習する手法が示されており、Routerモジュールを使った別々のエンコーダの組み合わせにも対応しています。ドメイン固有データでの微調整がモデルサイズの拡大よりも効果的であることを実証した、実践的なガイドとなっています。

Hugging Face、画像音声動画の埋め込みに対応

v5.4の新機能

マルチモーダル埋め込み追加
画像音声動画共有空間
リランカーも多モーダル対応
同一APIで混在入力可能

対応モデルと要件

Qwen3-VLとNemotron統合
2BはVRAM8GBから動作
processor_kwargsへ名称変更

Hugging Faceは4月9日、オープンソースの埋め込みライブラリSentence Transformers v5.4を公開し、テキストに限定されてきた埋め込みとリランキングの機能を画像音声動画にまで拡張しました。開発者は従来と同じAPIを使いながら、モダリティをまたいだベクトル検索RAGパイプラインを構築できるようになります。視覚的な文書検索やクロスモーダル検索といった新しい用途を、少ないコード変更で取り込める点が最大の特徴です。

中核となるのは、異なるモダリティの入力を共有埋め込み空間に写像する多モーダル埋め込みモデルです。テキストクエリと画像文書を直接比較でき、同じsimilarity関数で関連度を評価できます。ブログの例では「黄色い建物前に駐車された緑の車」というテキストが、該当する車の画像に対して最も高い類似度を示し、ハードネガティブの誤マッチが抑えられることが示されました。

リランカー(CrossEncoder)も多モーダル化され、テキスト・画像動画を組み合わせたペアにスコアを付与できます。エンベディングで高速に候補を絞り込み、リランカーで精度を高めるという2段構えの検索パターンが、マルチモーダル文脈でも標準化されました。rank()やpredict()は従来と同じインターフェースのまま、複合入力を受け付けます。

対応モデルにはQwen3-VL-Embedding-2B/8B、NVIDIA llama-nemotron-embed-vl、jinaai/jina-reranker-m0などが含まれ、統合コレクションから即座に利用できます。2BクラスはVRAM約8GB、8Bクラスは約20GBを必要とし、CPUでは推論が著しく遅いためGPU環境の利用が推奨されています。

設定面では画像解像度や精度を制御するprocessor_kwargsとmodel_kwargsが用意され、従来のtokenizer_kwargsは非推奨となりました。経営層やエンジニアにとって、社内ドキュメントのスクリーンショットや動画アーカイブを横断検索する基盤を、既存の知識資産を活かしたまま整備できる点が実務的な価値です。

Arcee、米国発400Bオープンソース推論モデルを公開

モデルの技術的特徴

400BパラメータのMoE構成
推論時に13Bのみ活性化
同等規模比2〜3倍の推論速度
Apache 2.0で完全商用利用可能

性能と市場での位置づけ

PinchBenchで91.9を記録
Claude Opus 4.6に次ぐエージェント性能
出力トークン単価は約96%安価
米国製オープンモデルの空白を補完

Arcee AIは、399億パラメータのテキスト専用推論モデル「Trinity-Large-Thinking」をApache 2.0ライセンスで公開しました。30人規模のサンフランシスコ拠点のスタートアップが、米国発のオープンソースフロンティアモデルとして開発したものです。

同モデルはMixture-of-Experts(MoE)アーキテクチャを採用し、400Bの総パラメータのうち推論時には約13Bのみを活性化します。これにより大規模モデルの知識を保持しつつ、同等規模のモデルと比べ2〜3倍の推論速度を実現しています。

開発にあたりArceeは総資金の約半額にあたる2000万ドルを33日間の学習に投入しました。NVIDIA B300 Blackwell GPU 2048基のクラスタを使用し、20兆トークンのデータで学習を行っています。

エージェント性能の指標であるPinchBenchでは91.9を記録し、プロプライエタリモデルのClaude Opus 4.6(93.3)に迫る水準です。出力トークンあたりの価格は0.90ドルで、Opus 4.6の25ドルと比較して約96%安価となっています。

「Thinking」機能の追加により、以前のプレビュー版で課題とされたマルチステップ指示への対応が改善されました。長時間のエージェントループでも一貫性を維持できる「長期エージェント」の実現を目指しています。

背景には、中国Qwenやz.aiがプロプライエタリ路線に転換し、MetaLlamaも品質問題で後退するなど、オープンソースフロンティアモデルの空白が生じている市場環境があります。Arceeはこの領域を米国企業として埋める狙いです。

OpenRouterでは前身のTrinity-Large-Previewが米国で最も利用されたオープンモデルとなり、ピーク時には1日806億トークンを処理しています。今後はフロンティアモデルの知見をMini・Nanoモデルへ蒸留し、コンパクトモデルの強化も進める方針です。

OllamaがApple MLX対応、Macでのローカル推論を大幅高速化

MLX対応の概要

Apple MLXフレームワーク対応開始
Ollama 0.19プレビューで提供
Qwen3.5-35Bモデルのみ対応
Apple Silicon搭載Mac・RAM32GB以上が必要

性能改善と圧縮技術

キャッシュ性能の向上を実現
Nvidia NVFP4圧縮形式に対応
メモリ使用効率の大幅改善

ローカルLLM需要の高まり

OpenClawGitHubで30万スター突破
クラウドAPIの料金・制限への不満が背景

ローカルLLM実行ツールOllamaは、Appleが開発したオープンソースの機械学習フレームワークMLXへの対応を発表しました。これにより、Apple Silicon搭載Macでの大規模言語モデルの推論性能が大幅に向上します。

今回の対応はOllama 0.19のプレビュー版として提供されており、現時点で対応モデルはAlibabaのQwen3.5-35Bパラメータ版のみです。利用にはApple Silicon搭載Macに加え、最低32GBのRAMが必要とされています。

MLX対応に加え、キャッシュ性能の改善やNvidiaNVFP4モデル圧縮形式への対応も同時に発表されました。NVFP4はモデルのメモリ使用量を大幅に削減する技術で、より効率的な推論環境の構築が可能になります。

ローカルモデル実行への関心は急速に高まっています。OpenClawGitHubで30万スター以上を獲得し、中国を中心に世界的な注目を集めています。研究者やホビイスト以外の層にもローカルLLMの活用が広がりつつあります。

背景には、Claude CodeChatGPT Codexなどのクラウドサービスにおけるレート制限や高額なサブスクリプション費用への開発者の不満があります。OllamaはVisual Studio Codeとの統合も拡充しており、ローカル開発環境の充実を進めています。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

Hugging Face、OpenClawのオープンモデル移行手順を公開

2つの移行経路

HF推論API経由が最速
ローカル実行で完全無料化
GLM-5を推奨モデルに指定
HF PRO会員は月2ドル無料枠

ローカル環境構築

llama.cppでローカル推論
Qwen3.5-35Bが32GB RAMで動作
OpenAI互換APIとして接続
プライバシーと完全制御を実現

Hugging Faceは、OpenClawやPiなどのAIエージェントをクローズドモデルからオープンモデルへ移行するための具体的な手順を公開しました。ホスト型とローカル型の2つの方法が提示されています。

ホスト型の方法では、Hugging Face Inference Providersを利用します。APIトークンを取得し、OpenClawの設定コマンドで認証を行うだけで、数千のオープンソースモデルから選択して即座にエージェントを復旧できます。

推奨モデルとしてGLM-5が挙げられており、Terminal Benchで高いスコアを記録しています。設定ファイルのrepo_idを変更するだけでモデルの切り替えが可能で、HF PRO会員には月額2ドルの無料クレジットが付与されます。

ローカル型の方法では、オープンソースの推論ライブラリllama.cppを使用します。macOS・Linux・Windowsいずれにも対応しており、パッケージマネージャから簡単にインストールできます。

ローカル実行ではQwen3.5-35B-A3Bが推奨されており、32GBのRAMで動作します。APIコストゼロ、レート制限なし、完全なプライバシー保護が実現でき、クローズドモデルに依存せずエージェントを運用できる点が強調されています。

完全ローカル動作のAI議事録アプリTalatが登場

Talatの特徴

音声・議事録が端末外に出ない設計
買い切り49ドルでサブスク不要
アカウント作成や分析データ送信も不要
20MBの軽量Macアプリ

技術と拡張性

Apple Neural Engine音声認識実行
FluidAudio基盤の低遅延処理
LLM選択やObsidian連携に対応
MCPサーバーやWebhookも搭載

英国開発者Nick Payne氏が、完全ローカル動作のAI議事録アプリ「Talat」をMac向けに公開しました。評価額15億ドルのGranolaに対抗し、音声データがクラウドに送信されないプライバシー重視の設計が最大の特徴です。

TalatはZoom、Teams、Google Meetなどの会議アプリから音声を取得し、リアルタイムで文字起こしを行います。会議終了後にはローカルLLMが要約・要点・決定事項・アクションアイテムを自動生成します。話者の識別もリアルタイムで行われ、手動での再割り当ても可能です。

技術基盤にはFluidAudioというSwiftフレームワークを採用し、AppleNeural Engine上で高速な音声AI処理を実現しています。Payne氏が開発したオープンソースの音声ライブラリAudioTeeも活用されており、Apple独自のCore Audio Taps APIを通じてシステム音声を取得します。

要約モデルにはQwen3-4B-4bitをデフォルトで搭載し、比較的低スペックなハードウェアでも動作します。ユーザーは任意のクラウドLLMやNvidia製Parakeetモデル、Ollama経由のローカルモデルに切り替えることも可能で、高いカスタマイズ性を備えています。

価格はプレリリース版で買い切り49ドル、正式版では99ドルに値上げ予定です。M1以降のMacで利用でき、購入前に10時間の無料トライアルが可能です。開発者のPayne氏と共同創業者のMike Franklin氏はブートストラップで運営し、今後も買い切りモデルを維持する方針を示しています。

Scale AI、音声AI初の実世界ベンチマーク公開

評価手法の革新

60言語超の実音声で評価
利用中会話から盲検比較実施
投票後に選択モデルへ自動切替
合成音声でなく実環境音声使用

主要モデルの実力

音声認識はGemini 3 Proが首位
音声対話はGPT-4o Audioが優勢
Grok Voiceが補正後に急浮上
Qwen 3 Omniが知名度以上の健闘

浮き彫りの課題

非英語で応答言語が切替わる欠陥
同一モデル内で音声選択により勝率30pt差
会話が長引くと内容品質が急劣化

Scale AIは2026年3月18日、音声AIモデルを実際の人間の会話データで評価する世界初のベンチマークVoice Showdown」を公開しました。60言語以上、数千件の自発的音声会話から収集した選好データに基づき、既存の合成音声ベンチマークでは見落とされてきた能力差を明らかにしています。

評価はScale AIChatLabプラットフォーム上で行われます。ユーザーはフロンティアモデルを無料で利用でき、音声プロンプトの5%未満の頻度で匿名の2モデル比較が提示されます。投票後は選んだモデルに切り替わるため、誠実な投票が動機づけられる設計です。

音声認識(Dictate)部門ではGemini 3 ProGemini 3 Flashが統計的に同率首位となり、GPT-4o Audioが3位に続きました。音声対話(S2S)部門ではスタイル補正後にGPT-4o Audioが首位、Grok Voiceが僅差の2位に浮上しています。オープンウェイトQwen 3 Omniは両部門で4位と健闘しました。

最も深刻な発見は多言語対応脆弱性です。OpenAIのGPT Realtime 1.5はヒンディー語やスペイン語など公式対応言語でも約20%の確率で英語で応答してしまいます。また同一モデル内でも音声の選択により勝率が30ポイントも変動することが判明しました。

さらに会話が長くなるにつれ内容品質の劣化が主要な失敗要因となることが示されました。1ターン目では品質起因の失敗が23%ですが、11ターン以降は43%に急増します。Scale AIは今後、リアルタイムの全二重通話評価モードの追加を予定しており、音声AI評価の新たな業界標準となることが期待されます。

Mistral、推論・視覚・コード統合の小型モデルSmall 4公開

Small 4の特徴

Apache 2.0で公開
総パラメータ1190億、活性60億
128エキスパートのMoE構成

推論コスト削減

出力が他モデルより大幅に短い
推論努力を動的に調整可能
H100×4台で運用可能

ベンチマーク性能

MMLU ProでMistral Large 3に迫る性能
GPT-OSS 120BをLCRで上回る

Mistralは2026年3月、推論・マルチモーダル・エージェントコーディングの3機能を統合した小型オープンソースモデルSmall 4」を公開しました。Apache 2.0ライセンスで提供され、企業が複数モデルを使い分ける必要性を解消することを目指しています。

Small 4はMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数1190億のうち、トークンあたりの活性パラメータはわずか60億に抑えられています。128のエキスパートから各トークンで4つが選択される設計により、効率的なスケーリングと専門化を実現しています。

新たに導入された「reasoning_effort」パラメータにより、ユーザーは推論の深さを動的に調整できます。軽量な高速応答からMagistralのようなステップバイステップの詳細推論まで、用途に応じた切り替えが可能です。256Kのコンテキストウィンドウも長文分析に対応します。

ベンチマークでは、MMLU ProMistral Medium 3.1やMistral Large 3に迫る性能を示しました。一方、LiveCodeBenchではQwen 3.5 122BやClaude Haikuに及ばない結果も出ています。ただしSmall 4はインストラクトモードで最短の出力長(2.1K文字)を記録し、推論コスト面での優位性を主張しています。

小型言語モデル市場のNeurometric社CEOロブ・メイ氏は、Small 4のアーキテクチャの柔軟性を評価しつつも、小型モデル市場の断片化リスクを指摘しました。企業がAIモデルを選定する際には「信頼性と構造化出力」「レイテンシと知能の比率」「ファインチューニング可能性とプライバシー」の3つの柱を優先すべきだと述べています。

Eragon、企業向けAI OSで1200万ドル調達

プロンプト型業務基盤

全業務ソフトをLLMで代替
自然言語で分析・ダッシュボード生成
オープンソースモデルを顧客データで訓練

セキュリティと差別化

顧客データは自社環境内に保持
モデル重みを企業が所有
大企業・スタートアップで導入開始
Nvidia黄氏も同様のビジョン提示

Eragon創業者ジョシュ・シロタ氏は、2025年8月に同社を設立し、企業向けエージェントAI OSの構築を目指して1200万ドルの資金調達を完了しました。ポストマネー評価額は1億ドルに達しています。

同社の基本理念は「ソフトウェアは死んだ」というものです。ボタンやダイアログボックスといった従来のUIを廃し、SalesforceSnowflake・Jiraなどの業務ソフトをプロンプトひとつで操作できる世界を目指しています。

技術面ではQwenやKimiなどのオープンソースモデルを顧客データでポストトレーニングし、企業のメールやリソースと連携します。新規顧客のオンボーディングも自然言語の指示だけで自動的に完了する仕組みです。

セキュリティ上の大きな特徴は、企業データが自社サーバー内に留まり、モデルの重みも企業自身が所有する点です。シロタ氏は、長年の企業データで訓練されたモデルが将来貴重な資産になると見込んでいます。

NvidiaのジェンスンCEOもGTCで「すべてのSaaS企業がAgentic-as-a-Serviceになる」と発言し、同様のビジョンを示しました。一方でフロンティアラボからモデルラッパーまで競争は激化しており、Eragonの差別化が問われます。

Hugging Faceオープンソース生態系、中国勢が米国を逆転

エコシステムの急成長

ユーザー1300万人に倍増
公開モデル200万超を達成
データセット50万件を突破
Fortune 500の30%超が参加

中国の台頭と地政学

中国がダウンロード数で米国を逆転
Qwen派生モデルが20万件超
韓国欧州AI主権を推進

技術トレンドの変化

ロボティクスデータセットが23倍増
小型モデルの実用採用が加速

Hugging Faceは2026年春のオープンソースAI生態系レポートを公開しました。2025年にユーザー数は1300万人に達し、公開モデルは200万件超、データセットは50万件を突破するなど、すべての指標がほぼ倍増しています。

中国が月間ダウンロード数で米国を逆転し、全ダウンロードの41%を占めるに至りました。DeepSeek R1の公開を契機に、Baiduは2024年のゼロから100件超のリリースへ急増し、ByteDanceやTencentも8〜9倍にリリース数を拡大しています。

企業の開発シェアは2022年以前の約70%から2025年には37%に低下しました。一方、個人や小規模コミュニティがダウンロードの39%を占め、量子化やファインチューニングを通じてモデルの流通を主導する存在へと成長しています。

各国政府はAI主権の確保に動いています。韓国は国家ソブリンAIイニシアティブを発足させ、LG AI ResearchやNaverなど国内企業を指名しました。スイスやEU各国も公的資金によるオープンモデル開発を推進し、Reflection AI韓国データセンター提携も発表されています。

ロボティクス分野ではデータセットが2024年の1,145件から2025年に26,991件へと急増し、Hub最大のカテゴリとなりました。科学研究でもタンパク質折りたたみや創薬への応用が進み、オープンソースAIは言語・画像生成を超えて物理世界への拡張を加速させています。

NVIDIA、GTC 2026でローカルAI向け新モデルと開発基盤を発表

新オープンモデル群

Nemotron 3 Super、1200億パラメータ
Mistral Small 4がDGX Sparkに対応
Nemotron 3 Nano 4B、軽量PC向け
Qwen 3.5最適化も同時発表

エージェント基盤整備

NemoClawOpenClaw向けOSS公開
ローカル推論プライバシー確保
Unsloth Studioファインチューニング簡易化

クリエイティブAI強化

LTX 2.3が2.1倍高速化
FLUX.2 Klein 9Bの画像編集2倍速

NVIDIAは2026年3月のGTC 2026において、ローカル環境で動作するAIエージェント向けの新しいオープンモデル群と開発基盤を発表しました。DGX SparkやRTX PCでクラウド級の性能を実現することを目指しています。

Nemotron 3 Superは1200億パラメータのオープンモデルで、アクティブパラメータは120億に抑えられています。エージェントAI向けベンチマークPinchBenchで85.6%を記録し、同クラスのオープンモデルで最高スコアを達成しました。

小型モデルとしてはNemotron 3 Nano 4Bが発表され、GeForce RTX搭載PCでもエージェントアシスタントの構築が可能になります。AlibabaのQwen 3.5シリーズ向けの最適化も同時に提供され、26万2000トークンの大規模コンテキストウィンドウに対応します。

エージェント実行基盤としてNemoClawがオープンソースで公開されました。OpenClaw向けの最適化スタックで、ローカルモデルによる推論でトークンコストを削減し、OpenShellランタイムによるセキュアな実行環境を提供します。

ファインチューニングの分野では、Unsloth StudioがウェブベースのUIで公開され、500以上のAIモデルに対応します。従来は高度な技術知識が必要だったカスタマイズ作業を、ドラッグ&ドロップの直感的な操作で完結できるようになりました。

クリエイティブAI分野では、LightricksのLTX 2.3がNVFP4・FP8対応で2.1倍の高速化を実現し、Black Forest LabsのFLUX.2 Klein 9B画像編集が最大2倍に高速化されました。RTX GPU向けに最適化されたモデルが続々と登場しています。

Nvidia、LLMメモリを20分の1に圧縮する新技術KVTCを発表

KVTCの技術概要

JPEG由来の変換符号化を応用
PCAでKVキャッシュの冗長性を除去
動的計画法で次元別にビット配分を最適化
GPUでエントロピー符号化を並列実行

性能と導入効果

20倍圧縮で精度低下1%未満
最初のトークン生成を最大8倍高速化
モデル重み変更不要で既存環境に導入可能

適用と今後の展望

長文脈・マルチターン用途に最適
vLLM互換のDynamoフレームワークに統合予定

Nvidiaの研究チームは、大規模言語モデルの会話履歴管理に必要なメモリを最大20分の1に圧縮する新技術「KVTC(KV Cache Transform Coding)」を発表しました。モデルの重みを一切変更せずに適用でき、最初のトークン生成までの遅延も最大8倍短縮されます。

LLMがマルチターン会話を処理する際、過去のトークンの数値表現を保持するKVキャッシュが不可欠ですが、長文脈タスクでは数ギガバイトに膨張します。これがGPUメモリを圧迫し、同時ユーザー数やレイテンシの深刻なボトルネックとなっていました。

KVTCはJPEGなどのメディア圧縮で実績のある変換符号化の手法をAIに応用しています。まず主成分分析(PCA)でKVキャッシュの特徴量を重要度順に整列し、動的計画法で各次元に最適なビット数を割り当てた後、NvidianvCOMPライブラリを用いてGPU上で高速にエントロピー符号化を実行します。

Llama 3やQwen 2.5など1.5Bから70Bパラメータの多様なモデルで検証した結果、20倍圧縮時でも精度低下は1ポイント未満にとどまりました。一方、既存手法のKIVIやGEARは5倍圧縮で大幅な精度劣化が発生し、KVTCの優位性が明確に示されています。

NvidiaAdrian Lancucki氏は、コーディングアシスタントエージェント推論ワークフロー、反復的RAGが理想的な適用先と述べています。今後KVTCはDynamoフレームワークのKV Block Managerに統合され、vLLMなど主要な推論エンジンとの互換性が確保される予定です。

Z.ai、エージェント特化の非公開モデルGLM-5 Turboを投入

モデルの特徴と価格

エージェント向け高速推論に最適化
入力$0.96・出力$3.20の低価格設定
約20万トークンの長文脈対応
ツール呼出エラー率0.67%と低水準

戦略的意味合い

オープンソース路線からの転換信号
中国AI各社が商用優先へ傾斜
米国大手と同様のハイブリッド戦略
企業向けコーディングサービスにも搭載

中国AIスタートアップZ.aiは、オープンソースのGLM-5をベースにしたプロプライエタリ版「GLM-5 Turbo」を発表しました。エージェント駆動型ワークフロー向けに最適化された同モデルは、OpenRouterのAPIを通じて即日利用可能です。

価格は入力100万トークンあたり0.96ドル、出力100万トークンあたり3.20ドルに設定されています。前身モデルより合計コストで約0.04ドル安く、Claude Haiku 4.5やGemini 3 Flashなど競合モデルと比較しても競争力のある水準です。

技術面では、複雑な指示の分解・ツール呼び出しスケジュール実行・長時間タスクの安定性が改善されています。OpenRouterのデータによると、ツール呼出エラー率はわずか0.67%で、GLM-5の各プロバイダー(2.33〜6.41%)を大きく下回ります。

注目すべきはライセンス戦略の変化です。Z.aiはGLM-5 Turbo自体の公開は明言せず、得られた知見を次期オープンソースモデルに反映するとしています。これはAlibaba Qwen部門の幹部離脱や組織再編と合わせ、中国AI業界全体の商用化シフトを示唆しています。

この動きは、OpenAIAnthropicGoogleが採用する「オープンで普及、プロプライエタリで収益化」という米国型ハイブリッド戦略と酷似しています。エージェントプラットフォームを検討する開発者にとって、GLM-5 Turboは製品であると同時に、中国AI市場の構造変化を読み解く重要なシグナルです。

FriendliAI、遊休GPUで推論実行し収益化する新基盤を発表

InferenceSenseの仕組み

遊休GPU推論ワークロード実行
Kubernetes上で自動検知・即時返却
オペレーター優先のスケジューリング
初期費用・最低契約なしの収益分配モデル

技術的優位性

vLLM基盤の連続バッチング技術
C++実装で標準比2〜3倍のスループット
DeepSeekQwen主要OSSモデル対応
スポット市場との差別化はトークン単位収益化

FriendliAIは、GPUクラスターの遊休時間を推論ワークロードで収益化する新プラットフォーム「InferenceSense」を発表しました。ネオクラウド事業者の未使用GPU推論を実行し、トークン収益を分配する仕組みです。

同社の創業者Byung-Gon Chun氏は、ソウル大学で機械学習の効率的実行を研究し、連続バッチング技術を提案した論文「Orca」の著者です。この技術はオープンソース推論エンジンvLLMの中核として業界標準となっています。

InferenceSenseはKubernetes上で動作し、オペレーターが指定したGPUプールの遊休状態を自動検知します。未使用時に推論コンテナを起動し、オペレーターのジョブが必要になれば数秒以内GPUを返却する設計です。需要は直接クライアントやOpenRouter等の推論アグリゲーターから集約されます。

従来のスポットGPU市場がクラウド事業者による生の計算資源の貸し出しであるのに対し、InferenceSenseはトークンスループットで収益化する点が異なります。FriendliAIのエンジンはC++で記述され、独自GPUカーネルを使用することで標準的なvLLMの2〜3倍のスループットを実現するとしています。

AIエンジニアにとっての注目点は、ネオクラウドが遊休容量を推論で収益化できれば、API価格の引き下げ圧力が生まれる可能性がある点です。Chun氏は「より効率的な供給者が増えれば全体コストは下がる」と述べ、DeepSeekQwen等のモデルの低価格化に貢献する意向を示しました。

NVIDIAジェットソンがエッジAIの新標準に、重機から家庭まで展開

エッジ推論の実用例

キャタピラー重機に音声AIアシスタント搭載
クラウド不要のローカル推論を実現
Jetson Thorがリアルタイム処理を担保
ロボット・スマートホームにも展開

対応オープンモデル群

GemmaMistralQwen主要モデルに対応
GR00T N1.6でロボット動作を自律制御
vLLMで最大273トークン/秒を達成
2B〜30Bパラメータを柔軟に切り替え

NVIDIAは2026年のCESにおいて、エッジAIプラットフォーム「Jetson Thor」上でキャタピラーの小型油圧ショベル向け音声AIアシスタントのデモを公開した。Qwen3 4BモデルをvLLC経由でローカル動作させ、クラウド接続なしで低遅延な自然言語応答を実現している。

従来のオープンモデルはデータセンターで運用されてきたが、クラウド依存はレイテンシとコストの課題を抱える。Jetsonはシステムオンモジュールにコンピュートとメモリを統合し、メモリ不足による調達難を解消しながら、産業機器向けに安定したエッジ推論環境を提供する。

ロボティクス分野ではFranka RoboticsのFR3 DuoがオンボードでGR00T N1.6モデルを実行し、タスクスクリプト不要で知覚から動作まで完結させた。NYU・UIUCなどの研究機関もJetson Thor上でヒューマノイド制御や抹茶製造ロボットの開発に成功している。

個人開発者レベルでも活用が広がっており、Hugging FaceのAndré Marafiotiはエージェント型AIシステムをJetson AGX Orin上で構築し、タスク自律スケジューリングを実現した。CollabnixのAjeet Singh RainaはOpenClawをJetson Thor上で24時間稼働させ、メール・カレンダー管理を自動化している。

Jetson Thorは現在、Gemma 3・Mistral 3・Qwen 3.5・gpt-oss-20B・NVIDIA Cosmosなど主要オープンモデルを広くサポートしており、開発者はvLLM・Ollamallama.cppなど多様なフレームワークを選択できる。GTC 2026では産業自律化の未来をテーマにした展示も予定されている。

Hugging FaceがUlyssesシーケンス並列でミリオントークン学習を実現

技術の仕組み

アテンションヘッドを複数GPUに分散
All-to-All通信で通信量を1/Nに削減
Ring Attentionより低レイテンシで効率的
FlashAttention 2/3と完全互換

エコシステム統合

AccelerateでParallelismConfig設定のみ
Transformers Trainerが損失集計を自動処理
TRL SFTTrainerでSFT最適化に対応
Liger-Kernelと組み合わせてメモリ節約

ベンチマーク結果

96Kトークンを4枚のH100で学習可能
64K時にスループットが3.7倍向上
8K時はDP=4と同等メモリ消費

Hugging Faceは2026年3月、Snowflake AI Researchが開発したArctic Long Sequence Training (ALST)プロトコルの一部であるUlyssesシーケンス並列(SP)をAccelerate・Transformers Trainer・TRL SFTTrainerに統合したことを発表した。

Ulyssesは、トランスフォーマーのアテンション機構が系列長の2乗でメモリ・計算量が増大する課題を解決する手法で、系列をGPU間で分割したうえでアテンションヘッドも並列化し、All-to-All通信を1アテンション層あたり2回行うことで通信量をO(S×H/N)に抑えている。

Ring Attentionと比較すると、Ulyssesの通信量はGPUあたりRing Attentionの1/N倍で済み、全帯域幅を1ステップで活用できるAll-to-All集合通信により低レイテンシを実現している。ただし、ヘッド数がsp_size以上である必要があるという制約がある。

ベンチマークではQwen3-4BをH100 80GB×4枚で学習し、SP=4の構成で最大96Kトークン(66GB)まで安定して学習できることを確認した。64Kトークン時のスループットは1GPU比で3.7倍の13,396トークン/秒を記録し、通信オーバーヘッドは最小限であることが示された。

利用にはdeepspeed>=0.18.1・accelerate>=1.12が必要で、HopperアーキテクチャにはFlashAttention 3、BlackwellにはFlashAttention 4(リリース待ち)の使用が推奨されている。ZeRO Stage 3やLiger-Kernelとの組み合わせでさらなるメモリ削減も可能だ。

MIT発、LLMメモリを50分の1に圧縮する新手法が登場

KVキャッシュの課題

KVキャッシュが長文処理の最大障壁
従来の圧縮は高圧縮率で精度急落
テキスト要約は重要情報を喪失
勾配ベース手法は数時間のGPU計算が必要

Attention Matchingの革新

50倍圧縮でも精度維持を実現
代数的手法で数秒の高速処理
参照クエリで圧縮品質を担保
オープンウェイトモデルが利用条件

MITの研究チームが、大規模言語モデル(LLM)の推論時メモリであるKVキャッシュを最大50分の1に圧縮する新手法「Attention Matching」を発表しました。精度をほぼ維持したまま数秒で処理が完了する点が最大の特徴です。

LLMはトークンを逐次生成する際、過去の全トークンのキー・バリュー対をKVキャッシュに保持します。長文の法務文書分析や自律型コーディングエージェントなどの企業用途では、1リクエストで数GBに膨張し、同時処理数やバッチサイズを大幅に制限する深刻なボトルネックとなっていました。

従来の対処法には、重要度の低いトークンの削除やトークン統合がありますが、高圧縮率では精度が急激に低下します。テキスト要約による代替も、医療記録のような情報密度の高い文書ではコンテキストなしと同等の精度まで劣化することが実験で確認されました。勾配ベースの「Cartridges」手法は高品質ですが、1コンテキストの圧縮に数時間を要し実用性に欠けていました。

Attention Matchingは、圧縮後のメモリが元のメモリと同じ「注意出力」と「注意質量」を再現するよう設計されています。事前に生成した参照クエリを用いて保持すべきキーを選択し、通常最小二乗法などの代数的手法で値を算出します。勾配降下を完全に回避することで、処理速度が桁違いに高速化されました。チャンク単位の分割処理により長文への対応も実現しています。

Llama 3.1やQwen-3を用いた実験では、読解ベンチマーク「QuALITY」と6万トークンの医療記録データセット「LongHealth」の両方で有効性が確認されました。テキスト要約との組み合わせでは200倍圧縮も達成しています。数学推論テスト「AIME」では、メモリ上限に達するたびに50%圧縮を最大6回繰り返しても、無制限メモリと同等の性能を維持しました。

ただし、この手法の導入にはモデルの重みへのアクセスが必要であり、クローズドAPIのみを利用する企業は自社実装ができません。また、既存の推論エンジンへの統合にはプレフィックスキャッシュや可変長メモリパッキングとの調整が必要です。研究チームはコードを公開済みで、大規模なツール出力や長文文書の取り込み直後の圧縮が有望なユースケースだと述べています。

Microsoft、150億パラメータの視覚推論モデルPhi-4をオープン公開

モデルの特徴と性能

150億パラメータの軽量マルチモーダルモデル
競合比5分の1のデータ量で訓練
数学・科学推論GUI操作に特化
精度と推論速度のパレート最適を実現

推論の選択的制御

思考・非思考の混合モード搭載
画像認識は直接応答で低遅延実現
数学問題は段階的推論で精度向上
ユーザーがモード手動切替も可能

公開とエコシステム展開

HuggingFaceGitHub重み公開
Phiファミリーがロボティクス領域にも拡大

Microsoft Researchは、150億パラメータのオープンウェイト・マルチモーダル推論モデルPhi-4-reasoning-vision-15B」を公開しました。テキストと画像の両方を処理し、数学・科学の推論、チャート読解、GUI操作など幅広いタスクに対応します。

最大の特徴は訓練効率の高さです。約2000億トークンのマルチモーダルデータで訓練されており、QwenGemma3など競合モデルが1兆トークン以上を使用するのに対し、およそ5分の1のデータ量にとどまります。その秘訣はオープンソースデータの徹底的なフィルタリングと品質改善にあります。

技術的に注目すべきは「混合推論」アプローチです。訓練データの約20%に思考過程を含む推論サンプルを、80%に直接応答のサンプルを使用し、モデルがタスクに応じて推論の要否を自動判断する仕組みを実現しました。画像キャプションでは即座に応答し、数学では段階的に思考します。

ベンチマーク評価では、ChartQAで83.3、MathVistaで75.2、ScreenSpot v2で88.2のスコアを記録しました。大型モデルのQwen3-VL-32Bには及ばないものの、同規模モデルを上回り、推論速度と精度のバランスでパレート最前線に位置しています。

Microsoftは本モデルをMIT許容ライセンスで公開し、ファインチューニングコードや評価ログも提供しています。Phiファミリーはエッジデバイス向けのPhi Silicaロボティクス向けのRho-alphaにも拡大しており、「最も賢いモデルは最大のモデルではなく、いつ考えるべきか知っているモデルだ」という戦略を鮮明にしています。

Alibaba Qwen技術リーダー林氏が突然退任、チーム再編へ

主要メンバーの相次ぐ離脱

林駿洋氏Qwen技術リーダーを退任
研究員Hui氏やインターンも同時離脱
Qwen3.5小型モデル発表の翌日の退任
同僚が「本人の意思ではない」と示唆

Alibabaの組織再編と戦略転換

Google DeepMind出身の周昊氏が後任に
CEOが基盤モデルタスクフォース設立を発表
垂直統合型R&D;から水平分業型へ転換
オープンソース戦略の継続を表明

オープンソースAIへの影響

Qwenモデルの累計6億DL超の実績
9万社超の企業導入への信頼性懸念
将来モデルの有料API限定化の可能性
中国発オープンソースAIの転換点

AlibabaのAIモデルQwenの技術リーダーである林駿洋(ジャスティン・リン)氏が2026年3月上旬に退任を発表しました。退任はQwen3.5小型モデルシリーズの発表からわずか1日後のことで、同僚の研究員やインターンも相次いで離脱しています。

林氏はXに「me stepping down. bye my beloved qwen」と短い投稿を残しました。同僚の陳成氏は「辞めるのは本人の選択ではなかった」と示唆し、チーム内外に衝撃が広がっています。Hugging FaceのAPACエコシステム責任者も「計り知れない損失」と評しました。

Alibaba CEOのエディ・ウー氏は社内書簡で林氏の貢献に感謝を示すとともに、自身を含む基盤モデルタスクフォースの設立を発表しました。オープンソースモデル戦略の継続とAI研究開発への投資拡大を約束しています。

背景には組織方針の対立があるとされます。林氏が推進した垂直統合型の自律的チーム運営に対し、経営側は数百人規模のプロジェクトを「一人の頭脳」で管理することへの限界を指摘しました。Google DeepMind Geminiチーム出身の周昊氏が後任に就任し、研究重視から指標重視への転換が進む見通しです。

Qwenモデルは累計6億ダウンロードを超え、9万社以上の企業が導入する中国最大級のオープンウェイトAIです。業界では今後のモデルが有料APIに限定される可能性が指摘されており、オープンソースAIコミュニティにとって大きな転換点となっています。

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

小型で大型超えの性能

9BOpenAI 120Bを上回る推論性能
ノートPC上でローカル実行可能
Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化
ネイティブマルチモーダル対応
0.8B〜9Bの4モデル構成

企業への影響

エッジ推論クラウドAPI不要に
文書解析・コード生成など業務自動化に対応

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデルQwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQAベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIgpt-oss-120B(80.1)を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減データ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

Qwen3.5がSonnet 4.5に迫る性能達成

Qwen3.5の性能

Claude Sonnet 4.5に匹敵する性能を達成
ローカルPCでのエージェント推論が可能
ツール呼び出し機能を完全サポート

オープンソースの競争力

Alibaba Qwenチームの急速な技術進歩
フロンティアモデルへのオープンソース対抗が加速
ローカル実行によるプライバシーと低コストを実現

AlibabaのQwen開発チームQwen3.5 Mediumモデルシリーズを公開しました。このモデルはローカルPCで動作しながらClaude Sonnet 4.5に近い性能を発揮するという驚異的な効率性を示しています。

エージェント向けのツール呼び出し機能を完全サポートしており、プロプライエタリモデルへの代替として実用的な水準に達しています。クラウド依存なしにローカルでフロンティア級の推論が可能になることは、プライバシーを重視する企業に特に価値があります。

オープンソースモデルのフロンティアモデルへのキャッチアップが急速に進んでおり、オープン対プロプライエタリの競争構図が根本から変わりつつあります。

Qwen 3.5が超大規模モデルを圧倒する効率性

小さくて強いモデルの台頭

兆パラメータ超えモデルに勝る
コストは大幅に安価
オープンQwen 3.5の実力

Alibabaが公開したQwen 3.5は、1兆パラメータを超える巨大モデルと比較しても同等以上の性能を示しており、大規模モデルが必ずしも高性能であるという常識を覆しています。

コスト効率の高さから、エンタープライズでの実運用における費用対効果が期待されます。中国のAI技術力の台頭を改めて示す結果となっています。

Qwen 3.5はオープンウェイトモデルとして公開されており、日本企業を含む世界中の開発者ファインチューニングに活用可能です。

Qwen 3.5 PlusがVercel AI Gatewayで提供開始、100万トークン対応

モデル性能の特徴

100万トークンコンテキストウィンドウ
アダプティブツール使用を内蔵
エージェントマルチモーダルタスク対応
Web開発・フロントエンドに最適化

開発者体験

Vercel AI Gatewayで即時利用可能
One APIで複数モデルへのアクセス
ウェブ開発者の選択肢が拡大
オープンソース系モデルの商用力向上

AlibabaのQwen 3.5 PlusVercelのAI Gatewayで提供開始されました。100万トークンのコンテキストウィンドウと内蔵のアダプティブツール使用機能を持ち、エージェントワークフロー、思考、検索、マルチモーダルコンテキストでのツール使用に優れています。

Vercel AI Gatewayは開発者が単一のAPIエンドポイントから複数のAIモデルにアクセスできる基盤です。Qwen 3.5 Plusの追加により、中国発の高性能モデルVercelエコシステムで直接利用できるようになりました。

アダプティブツール使用はモデルが状況に応じて自動的に適切なツールを選択・使用する機能であり、エージェント型アプリケーションの開発効率を大幅に高めます。

Qwen系モデルは中国のAlibabaが開発しており、オープンソースとして公開されているバージョンもあります。商用利用向けのQwen 3.5 Plusの主要プラットフォームへの展開は、グローバルLLM市場でのQwen存在感を高めます。

Web開発・フロントエンドタスクでの最適化という定位置は、Next.js・Reactエコシステムを中心とするVercelのユーザー層との相性が良く、実用的なユースケースに直結した展開です。

DeepSeekからAI+へ:グローバルオープンソースAIエコシステムの未来を分析

現状分析

DeepSeekが変えたAI地政学
中国オープンソースコミュニティの台頭
AI+時代の到来

将来の方向性

オープンソース多極化の加速
産業応用への統合
グローバル協調の可能性

H Companyのブログシリーズの最終回として、DeepSeekの登場が引き起こしたグローバルオープンソースAIエコシステムの変化と、「AI+」時代への移行について分析しています。

DeepSeekが示したのは、中国のAI研究コミュニティが米国主導の閉鎖的なフロンティアモデルに対抗できる強力なオープンソースモデルを開発できるという事実です。これが業界の前提を覆しました。

AI+時代とは、AIが単独のアプリケーションではなく、産業・教育・医療インフラなどあらゆる社会システムに深く統合される段階を指しています。

QwenLlamaMistralなど多様なオープンソースモデルの競争は、特定のプロバイダーへの依存リスクを分散し、AIの民主的な発展を促すという意義があります。

グローバルなオープンソースAIエコシステムの健全な発展は、個人・企業・国家が自律的にAIを活用できる未来を実現する基盤となります。

AlibabaのQwen3-Coder-Nextがバイブコーダー向けの強力なオープンソースモデルに

モデルの特徴

超スパースアーキテクチャ採用
オープンソースで無料利用可能

競争への影響

Claude CodeCodexへの対抗
中国AIオープンソースの躍進
開発者コスト削減効果

アリババのQwenチームは、バイブコーディングユーザー向けに最適化されたオープンソースの超スパースモデル「Qwen3-Coder-Next」を公開しました。高い性能と低い計算コストを両立する超スパースアーキテクチャが特徴です。

超スパースモデルは、活性化されるパラメータが全体の一部に限られるため、同等性能のデンスモデルより低コスト・低レイテンシーで動作し、ローカル実行も現実的になります。

Claude CodeOpenAI CodexGitHub Copilotなど有料コーディングAIに対し、高品質なオープンソース代替を提供することは、コスト重視の開発者や企業への強い訴求力を持ちます。

Qwen3の一連のリリースは、中国のAI研究コミュニティがグローバルなオープンソースAIリーダーとして台頭していることを改めて示しています。

開発者にとってQwen3-Coder-Nextは実用的な選択肢であり、コーディングAIの競争激化がすべての開発者に恩恵をもたらします。

VercelがClaude Code Max対応やKimi K2.5など複数のAI Gatewayアップデートを発表

新機能一覧

Claude Code MaxがAI Gatewayで利用可能
Kimi K2.5とQwen3-Maxが追加
Trinity Large Previewの公開
リアルタイムモデル性能指標
スキルv1.1.1リリース

開発者エコシステム

インタラクティブ発見機能の強化
エージェントサポートの拡充
オープンソース公開

VercelはAI Gatewayに複数の重要なアップデートを加えました。Claude Code Maxの対応、Kimi K2.5とQwen3-Maxの追加が含まれます。

スキルv1.1.1ではインタラクティブな発見機能とエージェントサポートが強化され、オープンソースとして公開されました。開発者エコシステムの拡大が続いています。

Qwen3-MaxがHumanity's Last Examで首位、AI Gatewayでも利用可能に

ベンチマーク結果

Humanity's Last Examで首位
Gemini 3 ProとGPT-5.2を上回る
思考推論モードの威力

利用可能性

Vercel AI Gatewayで即時利用可能
思考モデルの実用性証明
オープンソースモデルの台頭

Alibaba CloudのQwen3-Max ThinkingモデルがHumanity's Last Examベンチマークでトップスコアを記録し、Gemini 3 ProやGPT-5.2を超えました。

このモデルはVercel AI Gatewayを通じて即座に利用でき、思考推論(Thinking)機能が複雑な問題解決において大きな効果を発揮することが示されました。

MiroMind MiroThinker 1.5が兆パラメータ級性能を効率的に実現

MiroThinker 1.5の技術的革新

兆パラメータ相当の性能を小型モデルで実現
推論時の計算効率を大幅に向上させた設計
エンタープライズ向けの専門タスクで高精度
コスト効率の高いAI推論を低資本で提供
オープンソース路線で開発者への採用を促進
複雑なビジネスロジックへの適応性が高い

スモールエコシステムへの影響

大手モデルへのコスト対抗手段として注目
独立系AI企業の競争力を高める可能性
専門領域に特化した中規模モデルの価値が再評価
APIコスト削減で中小企業AI活用が促進
医療・法務・金融などの垂直市場に適する
モデル効率化トレンドの加速を示す先行事例

MiroMindが発表したMiroThinker 1.5は、兆パラメータ規模の大型モデルに匹敵する性能を、はるかに少ないパラメータ数で実現するとされる新しいAIモデルです。効率的なアーキテクチャ設計と推論最適化によって、エンタープライズ向けの高精度なタスク処理を低コストで提供します。

従来は巨大モデルを使わなければ実現できなかった複雑な推論タスクを、中規模モデルで処理できるようになることで、APIコストの大幅な削減と環境負荷の低減が期待されます。オープンソース路線を採用することで、開発者コミュニティによる採用と改善も促進されます。

DeepSeekQwenなど効率性を重視した中国発モデルの台頭と合わせて、「大きければ良い」というAI開発の常識が変わりつつあります。MiroThinker 1.5は独立系AI企業が資本力で劣りながらも競争力を持てることを示す好例です。

Qwen-Image-2512、Nano Banana Proに対抗するOSS画像生成の本命に

Qwen-Image-2512の実力

Google Nano Banana Proに対抗できる品質
オープンソースで自由に利用・改変が可能
テキストと画像統合理解能力が高評価
Gemini 3 Proベースのプロプライエタリ製品に迫る
Fal版Flux 2と並ぶ年末の重要リリース
研究者・開発者コミュニティから高い評価

オープンソース画像生成の意義

プロプライエタリ一強体制に対抗軸が登場
商用利用の自由度が採用を後押し
Googleへの依存なしに高品質生成が可能に
ファインチューニングで独自モデル作成が容易
コスト面でもクラウドAPI不要で大幅削減
中国AI研究の実力を世界に示す一手

アリババが開発したQwen-Image-2512がリリースされ、GoogleNano Banana Pro(Gemini 3 Pro Imageベース)に対抗できる品質をオープンソースで提供するモデルとして注目を集めています。

Nano Banana Proは11月のリリース後、画像生成AIの基準を大幅に引き上げたと評価されていました。Qwenチームはこれを受けて独自の画像・テキスト統合モデルを開発し、推論能力と画像品質の両立で高い評価を得ています。オープンソースであることが最大の差別化です。

商用利用の自由度と自由なカスタマイズ性は、特にスタートアップや研究機関にとって大きな利点です。Googleに料金を支払うことなく同等品質の画像生成APIを構築できることは、エコシステム全体の民主化を促します。

2025年末時点で画像生成AI市場は三つ巴になりました。Google Nano Banana Pro、Fal最適化Flux 2、そしてQwen-Image-2512——それぞれが異なる価値提案を持つ健全な競争環境が整いつつあります。中国発オープンソースの存在感は2026年さらに高まるでしょう。

Fal、独自Flux 2モデル公開——高速・低コスト画像生成を実現

独自モデルの特徴と優位性

Flux 2をベースにFalが独自最適化を実施
推論速度と生成コストを大幅に改善
シリーズDで1.4億ドルを調達した直後に投入
Sequoia・Kleiner Perkinsが出資する注目株
NVIDIAベンチャーも投資家に名を連ねる
Black Forest Labs開発Fluxの最新バージョン活用

市場競争での位置付け

Google Nano BananaQwenと三つ巴の争いに
推論API市場での差別化戦略
開発者向け低レイテンシAPIとして展開
クリエイター向けの高品質生成に対応
価格競争力でエンタープライズ需要を開拓
年末の画像生成AI競争を象徴する一手

AIインフラスタートアップのFal.aiが独自最適化したFlux 2ベースの画像生成モデルを公開しました。1.4億ドルのシリーズD調達直後のタイミングでの投入で、市場への本気度を示しています。

Falのアプローチは単なるモデル再配布ではなく、推論スタック全体を最適化して速度とコストを改善する点にあります。Sequoia Capital、Kleiner Perkins、そしてNVIDIAのベンチャー部門が出資しており、技術力への評価の高さがうかがえます。

2025年末の画像生成AI市場はGoogle Nano Banana Pro、中国Qwen-Image、そしてFal版Flux 2が揃い踏みとなり、多極化競争の様相を呈しています。特に推論APIコストの低下は、中小クリエイター開発者にとって追い風です。

Black Forest Labsが開発するFluxシリーズは高品質な画像生成で定評があり、Falによる最適化でよりアクセスしやすくなります。2026年は画像生成AIの商用化競争がさらに激化する見通しです。

GPT-5よりQwen——中国AI競争が本格化

Qwenの台頭と実力

杭州Rokidのスマートグラスがリアルタイム多言語翻訳を実現
Qwen中国語NLPで圧倒的な強みを持つ
アリババ発のオープンソース戦略が差別化
GPT-5に匹敵または超える評価が広がる
ローカル言語特化でグローバル勢に優位性
コスト効率でも西側モデルを大幅に下回る

中国AI産業の現状

規制の壁を越えた革新が続いている
ハードウェア制裁を迂回した独自発展
ロボットスマートグラスでの実用化が進む
政府支援による大規模な研究投資
西側では見えにくい中国AI生態系の実力
2026年はグローバル競争が一層激化する見通し

杭州で取材したWIREDの記者は、Rokidのスマートグラス中国語→英語のリアルタイム翻訳を完璧にこなす場面に立ち会いました。背後にあるのはアリババが開発した大規模言語モデル「Qwen」です。

Qwenはオープンソースで公開され、中国語テキスト処理においてGPT-4Claudeと肩を並べるか上回る評価を受けています。アリババはハードウェア制裁にもかかわらず、ソフトウェア競争力で着実に地位を確立しています。

中国のAI産業は政府の大規模支援を背景に、スマートグラスロボティクス、自動運転など実世界への応用で急速に進化しています。GPT-5登場前後から「中国製モデルで十分」という声が増えており、競争軸が変わりつつあります。

米中AI競争は2026年にさらに激化する見通しです。Qwenのようなオープンソースモデルが無料で利用できる環境は、特にアジア太平洋地域でOpenAI依存からの脱却を加速させる可能性があります。

Ai2、強化学習を延長したOLMo 3.1を公開

OLMo 3.1の概要と強化学習の延長

Ai2がOLMo 3.1をリリース、OLMo 3の後継として公開
OLMo 3.1 Think 32BとInstruct 32Bの2モデルを更新
Think 32Bは追加21日・224GPU規模でRLトレーニングを延長
AIMEで5点超、ZebraLogicで4点超など主要ベンチマークが大幅改善
Instruct 32Bは7Bモデルのレシピを32Bに適用して開発
現在はAi2 PlaygroundとHugging Faceで利用可能、API提供も予定

ベンチマーク性能とオープンソースへの取り組み

OLMo 3.1 ThinkはAIME 2025でQwen 3 32Bを上回る性能を記録
OLMo 3.1 InstructはGemma 3を上回る数学ベンチマーク結果を達成
32Bスケールのオープン命令調整モデルとして最高水準と主張
RL-Zero 7Bの数学コーディングモデルも長期安定学習で更新
データ・コード・学習決定の完全な透明性を維持する方針を継続
OLMoTraceによる学習データ追跡ツールも引き続き提供

アレン人工知能研究所(Ai2)は、オープンソース言語モデルファミリー「OLMo 3」のアップデート版となる「OLMo 3.1」を公開しました。前バージョンのリリース後も強化学習(RL)トレーニングを継続し、さらなる性能向上を実現しています。

OLMo 3.1 Think 32Bは、OLMo 3 Think 32BのRLトレーニングを追加21日間、224個のGPUを用いて延長することで開発されました。数学推論・命令追従の各ベンチマークで大幅な改善が確認されています。

具体的な改善幅としては、AIMEで5点超、ZebraLogicで4点超、IFEvalで4点超、IFBenchで20点超の向上が報告されています。コーディングや複雑な多段階タスクの性能も向上しています。

OLMo 3.1 Instruct 32Bは、より小規模な7Bモデル向けの手法を大規模化することで構築されました。チャット、ツール利用、マルチターン対話に最適化された設計になっています。

ベンチマーク比較では、OLMo 3.1 ThinkがAIME 2025においてQwen 3 32Bを上回り、Gemma 27Bに近い性能を示しました。OLMo 3.1 InstructはGemma 3を数学ベンチマークで超えたとされています。

Ai2はデータ・コード・学習プロセスの完全な透明性を重視しており、企業や研究機関がモデルのデータ構成を把握・変更できる点を強調しています。OLMoTraceツールによるLLM出力と学習データの追跡機能も提供が続いています。

モデルはAi2 PlaygroundおよびHugging Faceで即時利用可能であり、API経由のアクセスも近日中に提供予定とされています。また、数学コーディング向けのRL-Zero 7Bモデルも今回の更新で改善されています。

NeurIPS2025:強化学習への回帰とGoogleの復権

技術トレンドの転換点

スケーリングから強化学習(RL)
特定用途へのモデル調整が加速
継続学習や世界モデルが新潮流

激変する企業勢力図

中国や新興ラボが急速に台頭
物理AIロボティクスの実用化

2025年12月、サンディエゴで開催された世界最大級のAI国際会議「NeurIPS」にて、業界の潮流が決定的な転換点を迎えました。これまでのデータ量を追求する競争から、強化学習(RL)や推論能力の深化を目指す「研究の時代」へと、開発の主戦場が大きく移行しています。

最大の焦点は、会場のあらゆる議論を席巻した強化学習(RL)の再流行です。単に事前学習データを増やすスケーリング則の限界が意識され始め、特定のユースケースに向けてモデルを精緻に調整するアプローチが、次なる成長のドライバーとして認知されています。

企業間の勢力図においては、Google DeepMindが圧倒的な存在感を示しました。Gemini 3の発表や最多の論文採択数を背景に、技術的なリーダーシップを取り戻しています。一方でAnthropicも勢いを維持する中、OpenAIは相対的に注目度を分け合う形となりました。

新たな技術トレンドとして、継続学習(Continual Learning)や世界モデルへの関心が急上昇しています。静的なモデルではなく、環境との相互作用を通じて学習し続けるシステムの構築が、2026年に向けた重要な研究テーマとして浮上してきました。

また、AlibabaのQwenDeepSeekといった中国、およびReflection AIなどの新興ラボが台頭しています。彼らは既存の大手ラボとは異なるアプローチで成果を上げており、AI開発の多極化が進んでいることを印象づけました。

実用面では、デジタル空間を超えた物理AI(Physical AI)ロボティクスへの応用が加速しています。エージェントAIを単なるモデルではなく「スタック」として捉え、実社会の複雑な課題解決に直結させる動きが、エンジニアたちの関心を集めています。

Nvidia、8Bの小型AIで巨大モデル凌ぐ効率と精度実現

巨大モデル依存からの脱却

単一モデルではなく複合システムへ移行
80億パラの軽量モデルが指揮役を担当
専門ツールや他LLMを適材適所で活用

低コストで高精度と柔軟性を実現

強化学習でコストと精度を最適化
博士級試験で巨大モデルを上回る成果
ユーザーの好みや制約に柔軟に対応
企業向けAIエージェント実用化を加速

Nvidiaと香港大学の研究チームは、80億パラメータの小型AIモデル「Orchestrator」を発表しました。強化学習を用いて他のツールやAIモデルを指揮・管理し、単一の巨大モデルよりも低コストかつ高精度に複雑な課題を解決します。

従来は一つの巨大な汎用モデルにあらゆる処理を依存していましたが、本手法は軽量な指揮者検索エンジンやコード解析、他のAIモデルへ処理を委譲します。人間が専門家や道具を使い分けるように、適材適所でツールを活用しシステム全体の効率を高めました。

Qwen3-8B」を基盤に強化学習を行った結果、博士号レベルの難問を含むテストでも巨大モデルを凌ぐ成果を出しました。GPT-5のような高価なモデルの利用を約4割に抑え、安価なツールと組み合わせることで、計算コストを劇的に削減しています。

企業導入における最大の利点は、コスト対効果と高い制御性です。「オープンソースモデルを優先する」といったユーザーの指定条件に従ってツールを選択できるため、予算やプライバシー要件に応じた柔軟な運用が可能となります。

この複合的なアプローチは、より高度で拡張性のあるAIシステムへの道を開くものです。現在、モデルの重みは非商用ライセンスですが、トレーニングコードはApache 2.0で公開されており、次世代のエージェント開発における重要な基盤となるでしょう。

2025年AI総括:GPT-5実用化と中国・小型モデルの台頭

OpenAIの進化と実用化加速

GPT-5と5.1が始動、ZenDeskで解決率9割事例も
Sora 2やブラウザAtlas、OSSモデルも全方位展開
コーディング特化モデルで長時間タスクが可能に

中国勢と多様なモデルの台頭

DeepSeekQwen3など中国OSSが世界を席巻
Google Gemma 3など超小型モデルが実用段階へ
Gemini 3やClaude Opus 4.5で競争激化

2025年11月、米VentureBeatは今年のAI業界を振り返る総括記事を公開しました。2025年は、特定の最強モデル一強ではなく、オープンソースや中国勢、エッジ向け小型モデルを含めた「エコシステムの多様化」が決定的となった年です。経営者エンジニアにとって、用途に応じて最適なAIを選択できる環境が整ったことが、今年最大の収穫と言えるでしょう。

OpenAIは待望のGPT-5およびGPT-5.1をリリースし、市場を牽引し続けました。初期の反応は賛否両論ありましたが、改良を経てZenDeskなどの企業導入が進み、顧客対応の自動解決率が80〜90%に達する事例も報告されています。さらに、動画生成AI「Sora 2」やブラウザ統合型「Atlas」、そして意外にもオープンウェイトモデルの公開など、全方位での攻勢を強めています。

特筆すべきは中国発のオープンソースモデルの躍進です。DeepSeek-R1やAlibabaのQwen3シリーズなどが、推論能力やコーディング性能で米国のフロンティアモデルに肉薄しています。MITなどの調査によれば、中国製モデルのダウンロード数は米国をわずかに上回る勢いを見せており、コストパフォーマンスを重視する企業にとって無視できない選択肢となりました。

「巨大化」へのカウンターとして、小型・ローカルモデルの実用性も飛躍的に向上しました。GoogleGemma 3やLiquid AIのLFM2は、パラメータ数を抑えつつ特定タスクに特化し、エッジデバイスやプライバシー重視の環境での利用を可能にしました。すべての処理を巨大クラウドAIに依存しない、分散型のAI活用が現実味を帯びています。

画像生成や競合他社の動きも活発です。MetaMidjourneyの技術ライセンスを取得し、自社SNSへの統合を進めるという驚きの戦略に出ました。一方、GoogleGemini 3に加え、ビジネス図解に強い画像生成モデル「Nano Banana Pro」を投入しています。AnthropicClaude Opus 4.5やBlack Forest LabsのFlux.2など、各領域でハイレベルな競争が続いています。

アリババがAI眼鏡参入、電池交換式で24時間稼働

AI搭載と長時間駆動の両立

独自AIモデル「Qwen」を搭載
バッテリー交換で24時間稼働
音声やタッチでの直感的操作

2つのモデルと価格設定

旗艦機S1はマイクロOLED採用
S1は537ドル、G1は268ドル
骨伝導マイクとカメラを内蔵

自社経済圏との強力な連携

AlipayやTaobaoと統合
即時翻訳や価格認識機能を提供

中国テック大手のアリババは27日、AI搭載スマートグラス「Quark」シリーズを発表し、ウェアラブル市場への参入を果たしました。最大の特徴は交換可能なバッテリーシステムを採用した点で、競合他社製品とは異なり、充電待ち時間なしで24時間の連続使用を可能にしています。

ラインナップは、マイクロOLED搭載の旗艦モデル「S1」(3,799元)と、ライフスタイル重視の「G1」(1,899元)の2種類です。いずれも同社の大規模言語モデル「Qwen」を搭載し、骨伝導マイクやカメラを通じた音声・タッチ操作に対応しています。

アリババの強みである経済圏との統合も進めており、決済アプリ「Alipay」やECサイト「Taobao」と連携します。着用者の視界にある商品の価格認識や、リアルタイム翻訳、ナビゲーション、さらには会議の自動文字起こしなど、ビジネスと日常の双方で実用的な機能を提供します。

MetaのRay-Banモデルなどが先行する市場において、アリババは「長時間稼働」と「実用機能」で差別化を図る狙いです。現在は中国国内での展開ですが、来年には海外市場向けモデルの投入も計画されており、激化するAIウェアラブル競争の一角を占めることになりそうです。

アリババ新技術、AIが自ら学習データ生成し性能3割増

独自データ作成の壁を突破

手作業によるデータ収集コストを削減
LLMが環境を探索し自律的に学習

3つの自己進化メカニズム

自己問答で多様なタスクを自動生成
自己ナビで過去の経験を再利用
各工程を詳細評価する自己帰属

実証された成果とビジネス価値

ツール操作性能が約30%向上
独自アプリへのAI導入障壁を低減

アリババのTongyi Labは、AIエージェントが自ら学習データを生成し能力を高める新フレームワーク「AgentEvolver」を開発しました。この技術は、大規模言語モデル(LLM)の推論能力を活用して自律的な学習ループを構築するもので、従来の強化学習に比べてツール操作のパフォーマンスを約30%向上させることが実証されています。企業が独自のソフトウェア環境にAIを導入する際、最大の障壁となるデータ作成コストを劇的に下げる技術として注目されます。

これまで、AIエージェントに特定のソフトウェアを操作させるには、膨大なコストがかかっていました。従来の強化学習では、人間が手作業でタスク例を作成する必要があり、特に社内専用システムなどの未知の環境では学習データそのものが存在しないことが多いためです。また、試行錯誤による学習は計算リソースを大量に消費します。「AgentEvolver」は、モデル自身に学習プロセスを委ねることで、これらのデータ不足と高コストの課題を一挙に解決しようとしています。

この自己進化プロセスの核となるのが、「自己問答(Self-questioning)」というメカニズムです。これは、AIが新しいアプリケーションを探索し、機能の境界を理解した上で、自らトレーニング用のタスクを生成する機能です。研究者はこれを「モデルをデータ消費者からデータ生産者へと変える」と表現しています。人間が事前にタスクを設計しなくとも、AIが環境に合わせて多様な課題を作り出し、それを解くことでスキルを磨いていくのです。

学習効率を高めるために、「自己ナビゲーション(Self-navigating)」と「自己帰属(Self-attributing)」という機能も組み込まれています。自己ナビゲーションは、過去の成功や失敗の経験を記憶し、存在しない機能を使おうとするなどの無駄な動作を防ぎます。一方、自己帰属は、最終的な結果だけでなく、作業の各ステップが成功にどう寄与したかをLLMが詳細に評価します。これにより、AIは単に正解するだけでなく、プロセスの正しさも学習できるようになります。

実際の性能評価でも、その効果は明らかです。Qwen2.5モデルをベースにした実験では、複雑なツール操作を要するベンチマークにおいて、従来手法と比較してスコアが平均で27.8%〜29.4%向上しました。特に、自律的に生成された多様なタスクが、モデルの推論能力と実行能力を大きく引き上げています。これは、少量のデータからでも高品質な学習が可能であることを示しており、企業にとっては専用AIアシスタント開発のハードルが大きく下がることになります。

MSのPC操作AI「Fara-7B」 端末完結でGPT-4o凌駕

端末完結でGPT-4o超え

70億パラメータの軽量モデルでPC動作
WebVoyagerで勝率73.5%を達成
視覚情報のみでマウス・キー操作

高度なプライバシーと安全設計

データが外部に出ないピクセル主権
重要操作前に停止する安全機構

革新的な学習手法と入手性

合成データによる効率的な学習
MITライセンスで商用利用も可能

マイクロソフトは2025年11月24日、PC操作に特化した新しい小規模言語モデル(SLM)「Fara-7B」を発表しました。わずか70億パラメーターながら、GPT-4oベースのエージェントを凌駕する性能を記録。データが外部に出ないオンデバイス実行を実現し、プライバシー保護と低遅延を両立させています。

最大の特徴は、人間と同じように画面の視覚情報だけを頼りに操作を行う点です。HTMLコード等の裏側情報を必要とせず、スクリーンショットからボタン位置などを認識してマウスやキーボードを操作します。Web操作のベンチマーク「WebVoyager」では、GPT-4o(65.1%)を上回る73.5%のタスク成功率を達成しました。

ビジネス利用で重要なのがセキュリティです。Fara-7Bはローカル環境で動作するため、機密情報がクラウドに送信されるリスクを排除する「ピクセル主権」を確立しています。また、送金やメール送信などの不可逆的な操作の直前には、必ずユーザーの同意を求める「クリティカルポイント」機能が組み込まれています。

開発には「知識の蒸留」という高度な手法が用いられました。マルチエージェントシステム「Magentic-One」が生成した14万件以上の高品質な合成データを学習させることで、小型モデルながら複雑な推論能力を獲得しています。ベースモデルには視覚処理に優れたQwen2.5-VL-7Bが採用されました。

本モデルは現在、Hugging Face等を通じてMITライセンスで公開されており、商用利用を含む試験運用が可能です。Windows 11搭載のCopilot+ PCでも動作確認済みで、企業は自社のセキュリティ要件に合わせたPC操作自動化エージェントの開発を、低コストかつ安全に開始できます。

Ai2が「Olmo 3」公開、完全透明性と推論力で企業支援

完全な透明性と操作性

学習データや過程を完全公開
企業独自のカスタマイズが容易
商用可能なApache 2.0採用

推論能力と効率の向上

思考過程が見えるThinkモデル
計算効率が従来の2.5倍に向上
LlamaQwenに対抗する性能

非営利AI研究機関のAi2は、完全な透明性を備えた最新LLMファミリー「Olmo 3」を公開しました。企業が求めるデータプライバシーと制御性を重視し、学習データからチェックポイントまで全てオープンソースとして提供します。

ラインナップは、高度な推論を行う「Think」、基盤となる「Base」、指示追従に優れた「Instruct」の3種です。特にThinkモデルは、推論プロセス(思考の連鎖)を明示的に出力できる初の完全オープンな32Bモデルとなります。

最大の特徴は、ブラックボックス化が進む商用AIに対する透明性の確保です。GoogleOpenAI推論過程を隠す傾向にある中、Olmo 3は企業がモデルの挙動を完全に把握し、デバッグや監査を行うことを可能にします。

企業ごとのカスタマイズ性も大幅に強化されました。「万能な解決策はない」という思想のもと、主要な学習段階ごとのチェックポイントを提供し、企業が自社データを追加して再学習(ファインチューニング)しやすい設計となっています。

性能面では、メタのLlama 3.1や中国Qwenに対抗しうると主張しています。特に計算効率は従来比で2.5倍に向上しており、より少ないコストとエネルギーで高性能な推論処理を実現している点が強みです。

米国AIの優位性、オープンソース化が鍵 Databricks創業者警鐘

米国AIが抱える危機

中国に研究で後れを取る現状
大手ラボによる技術の独占
学術界からの深刻な頭脳流出
科学者間の対話が枯渇

オープンソース化が鍵

中国オープン戦略が脅威に
生成AIを生んだTransformer公開論文
自由なアイデア交換で革新を促進
民主主義とビジネスの存亡に関わる課題

データ分析基盤大手Databricksの共同創業者アンディ・コンウィンスキー氏が、AI分野で中国に対抗するためには米国はオープンソース戦略に転換すべきだと警鐘を鳴らしました。同氏はCerebral Valley AI Summitにて、現在の技術独占と学術界からの頭脳流出が米国の優位性を損ない、民主主義にとって「存亡に関わる脅威」になっていると強く訴えました。

コンウィンスキー氏が指摘する問題の核心は、大手AIラボの姿勢にあります。OpenAIMetaAnthropicなどは画期的な技術を開発していますが、その多くはプロプライエタリ(独占的)であり、広く共有されません。さらに、高額な報酬で大学のトップ研究者を引き抜くことで、学術界での自由な知見の交換が「枯渇しつつある」と危機感を示しました。

対照的に中国では、政府がAIイノベーションのオープンソース化を奨励していると氏は分析します。DeepSeekやAlibaba傘下のQwenといった企業の研究成果が公開されることで、他の研究者や開発者がその技術を土台に新たなイノベーションを生み出す好循環が生まれる可能性があり、これが米国の脅威となり得るとの見方です。

「今日の生成AIは、公開論文で発表されたTransformerアーキテクチャから生まれた」とコンウィンスキー氏は述べ、オープンな研究の重要性を強調します。次のTransformer級のブレークスルーをどちらの国が先に生み出すかが、今後のAI覇権を決定づける重要な要素となるでしょう。

現状を「トウモロコシの種籾を食べているようなものだ」と表現し、イノベーションの源泉が枯渇すれば、5年後には大手AIラボ自身も競争力を失うと警告。米国がAI分野でトップを維持するためには、オープンなエコシステムの再構築が急務であると結論づけました。

中国発MiniMax-M2、オープンソースLLMの新王者

主要指標でOSSの首位

第三者機関の総合指標で1位
独自LLMに迫るエージェント性能
コーディングベンチでも高スコア

企業導入を促す高効率設計

商用利用可のMITライセンス
専門家混合(MoE)で低コスト
少ないGPU運用可能
思考プロセスが追跡可能

中国のAIスタートアップMiniMaxが27日、最新の大規模言語モデル(LLM)「MiniMax-M2」を公開しました。第三者機関の評価でオープンソースLLMの首位に立ち、特に自律的に外部ツールを操作する「エージェント性能」で独自モデルに匹敵する能力を示します。商用利用可能なライセンスと高い電力効率を両立し、企業のAI活用を加速させるモデルとして注目されます。

第三者評価機関Artificial Analysisの総合指標で、MiniMax-M2オープンソースLLMとして世界1位を獲得しました。特に、自律的な計画・実行能力を測るエージェント関連のベンチマークでは、GPT-5Claude Sonnet 4.5といった最先端の独自モデルと肩を並べるスコアを記録。コーディングやタスク実行能力でも高い性能が確認されています。

M2の最大の特長は、企業での導入しやすさです。専門家の知識を組み合わせる「MoE」アーキテクチャを採用し、総パラメータ2300億に対し、有効パラメータを100億に抑制。これにより、わずか4基のNVIDIA H100 GPUでの運用を可能にし、インフラコストを大幅に削減します。さらに、商用利用を認めるMITライセンスは、企業が独自に改良・展開する際の障壁を取り払います。

高いエージェント性能を支えるのが、独自の「インターリーブ思考」形式です。モデルの思考プロセスがタグで明示されるため、論理の追跡と検証が容易になります。これは、複雑なワークフローを自動化する上で極めて重要な機能です。開発者は構造化された形式で外部ツールやAPIを連携させ、M2を中核とした高度な自律エージェントシステムを構築できます。

M2の登場は、オープンソースAI開発における中国勢の台頭を象徴しています。DeepSeekやアリババのQwenに続き、MiniMaxもまた、単なるモデルサイズではなく、実用的なエージェント能力やコスト効率を重視する潮流を加速させています。監査や自社でのチューニングが可能なオープンモデルの選択肢が広がることは、企業のAI戦略に大きな影響を与えるでしょう。

アント、1兆パラメータAI公開 強化学習の壁を突破

1兆パラメータモデルRing-1T

中国アントグループが開発
1兆パラメータのオープンソース推論モデル
数学・論理・コード生成に特化
ベンチマークGPT-5に次ぐ性能

独自技術で学習効率化

強化学習ボトルネックを解決
学習を安定化させる新手法「IcePop」
GPU効率を高める「C3PO++」を開発
激化する米中AI覇権争いの象徴

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

アリババQwen、AIレポートを数秒でWeb・音声化

調査を多様な形式に変換

AIが調査レポートを自動生成
1-2クリックでWebページに即時変換
複数話者のポッドキャストも作成可能
コード、画像音声の生成を統合

競合とのアプローチの違い

ゼロからの新規コンテンツ生成に特化
Google NotebookLM既存資料の整理が中心
アイデアから公開までのプロセスを短縮
クリエイターや教育者にも有用

中国のEコマース大手アリババは10月21日、自社のAIチャット「Qwen Chat」に搭載された調査ツール「Deep Research」を大幅にアップデートしたと発表しました。この更新により、AIが生成した調査レポートを、わずか数クリックでインタラクティブなWebページや複数話者によるポッドキャストに変換できます。調査からコンテンツ公開までのプロセスを劇的に効率化し、ユーザーの生産性を高める狙いです。

新機能の核心は、単一の調査依頼から多様なメディア形式のアウトプットを生成できる点にあります。ユーザーがテーマを入力すると、QwenはWeb上の情報源からデータを収集・分析し、矛盾点を指摘しながら詳細なレポートを作成。その後、ボタン一つでプロ品質のWebページや、2人のホストが対話する形式のポッドキャストを自動で生成します。

この強力な機能は、Qwenチームが開発したオープンソースモデル群に支えられています。Webページの構造化にはQwen3-Coder、ビジュアル作成にはQwen-Image音声合成にはQwen3-TTSがそれぞれ活用されています。アリババはこれらを統合し、ユーザーがインフラを意識することなく利用できるマネージドサービスとして提供します。

この動きは、GoogleのAI調査アシスタントNotebookLM」と比較されています。NotebookLMが既存資料の整理や要約に強みを持つ一方、Qwen Deep Researchゼロから新しいコンテンツを生成し、多形式で出力する点で明確な差別化を図っています。どちらが優れているかは、ユーザーの目的によって評価が分かれるでしょう。

アリババの今回のアップデートは、AIによるリサーチが単なる情報収集に留まらず、コンテンツ制作までをシームレスに繋ぐ未来を示唆しています。専門家クリエイターが、少ないリソースで高品質なWebコンテンツやポッドキャストを発信する上で、強力なツールとなる可能性を秘めています。

ソブリンAI、米中技術覇権の新たな主戦場に

米国のソブリンAI戦略

OpenAIが各国政府と提携
国家によるAI統制を支援
非民主主義国との連携に懸念も

中国のオープンソース攻勢

Alibabaのモデルは3億DL超
来年には米国を凌駕する可能性

真のAI主権をめぐる論点

主権にはオープンソースが必須との声
クローズドとオープンの両立も可能

OpenAIをはじめとするテクノロジー企業が、「ソブリンAI」の構築支援を各国で進めています。ソブリンAIとは、各国が自国の管理下でAIインフラを開発・運用する能力を指し、米中間の技術覇権争いの新たな主戦場となりつつあります。米国が同盟国との連携を深める一方、中国オープンソースモデルで世界的な影響力を急速に拡大しています。

OpenAIはアラブ首長国連邦(UAE)などの政府と提携し、大規模なデータセンター建設を含むソブリンAIシステム構築を支援しています。この動きは米国政府とも連携しており、同盟国が中国の技術に依存するのを防ぐという戦略的な狙いがあります。米国の技術を世界に普及させることで、地政学的な優位性を確保しようとしています。

しかし、UAEのような非民主主義国との提携には懸念の声も上がっています。かつて米国は、経済的な関与が中国の民主化を促すと期待しましたが、結果的に権威主義体制を強めることになりました。AI技術の提供が同様の結果を招かないか、過去の教訓が問い直されています。OpenAIは政府からの要請があっても情報検閲は行わないと明言しています。

対する中国は、オープンソース戦略で猛追しています。AlibabaやTencent、DeepSeekといった企業が公開した高性能な基盤モデルは、世界中で広く採用されています。特にAlibabaの「Qwen」ファミリーは3億回以上ダウンロードされ、日本を含む各国のスタートアップが自国語対応モデルの開発基盤として活用しています。

オープンソースAIモデルをホストするHugging FaceのCEOは、「真の主権はオープンソースなしにはあり得ない」と指摘します。モデルの内部を完全に検証・制御できるためです。中国企業はこの戦略により驚異的な速さで技術力を向上させ、5年前の遅れを取り戻し、今や米国と互角のレベルに達したと分析されています。

AIの国家主権をめぐる競争は、クローズドモデルを推進する米国勢と、オープンソースで勢力を拡大する中国勢という構図を呈しています。OpenAIは両アプローチの共存が可能との見方を示していますが、どちらが次世代のグローバルスタンダードを握るのか。この動向は、各国の事業戦略を左右する重要な要素となるでしょう。

Salesforce、自然言語で開発する新AIツール発表

新ツール「Agentforce Vibes」

自然言語で開発するバイブコーディング
AIエージェント「Vibe Codey」が自動実装
アプリのアイデア出しから構築まで支援
既存Salesforceアカウントと連携

企業導入の利点と市場背景

既存コードを再利用しセキュリティを確保
開発環境のセットアップが不要
過熱するバイブコーディング市場に参入
既存ユーザーには当面無料で提供

企業向けソフトウェア大手のセールスフォースは10月1日、新たなAI搭載開発者ツール「Agentforce Vibes」を発表しました。このツールは、開発者が自然言語で要件を記述するとAIが自動でコードを生成する「バイブコーディング」を企業向けに提供します。既存のSalesforce環境と連携し、セキュリティを確保しながら開発プロセスを大幅に自動化することで、企業のアプリケーション開発の生産性向上を目指します。

新ツールの核となるのは、自律型AIコーディングエージェント「Vibe Codey」です。このエージェントは、アプリケーションのアイデア出しから設計、構築、さらには運用監視に至るまで、開発ライフサイクル全体を支援します。開発者は複雑な技術的実装から解放され、より創造的な業務に集中できるようになるでしょう。

「Agentforce Vibes」の大きな特徴は、企業の既存Salesforceアカウントと直接連携する点です。これにより、組織が既に保有するコード資産を再利用したり、独自のコーディングガイドラインをAIに遵守させたりすることが可能になります。ゼロから開発を始める必要がなく、エンタープライズレベルのセキュリティとガバナンスを維持したまま、AI開発の恩恵を享受できます。

近年、バイブコーディング分野ではスタートアップが巨額の資金調達に成功するなど市場が過熱しています。一方で、AIモデルの運用コストの高さが収益性を圧迫するという課題も指摘されています。セールスフォースは、巨大な製品スイートの一部として提供することでコスト圧力を軽減し、安定したサービス提供で差別化を図る戦略です。

同社は現在、既存ユーザーに対して「Agentforce Vibes」を無料で提供しており、将来的に有料プランの導入を予定しています。利用するAIモデルは、OpenAI社のGPT-5と自社ホストのQwen 3.0を組み合わせることで、コストと性能のバランスを取っています。開発の参入障壁を下げるこの取り組みが、市場にどのような影響を与えるか注目されます。

元OpenAIムラティ氏、AI調整ツールTinker公開

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立
初製品はAIモデル調整ツールTinker
評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化
強化学習でモデルの新たな能力を開拓
調整済みモデルはダウンロードして自由に利用可

OpenAIの最高技術責任者(CTO)であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ(ファインチューニング)を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習(RL)の活用です。共同創業者ChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

NVIDIA、AIモデル群Nemotronを無償公開 開発加速へ

NVIDIAは9月24日、マルチモーダルAIモデルファミリー「Nemotron」をオープンソースとして公開しました。NemotronにはAIモデル、データセット、開発ツール群が含まれ、研究および商用目的で利用可能です。GitHubなどを通じて提供され、開発者は透明性の高いAIを迅速に構築できます。これにより、あらゆる規模の企業でAI開発の加速が期待されます。 Nemotronは、AI開発の全段階を効率化するオープンソース技術群です。大学院レベルの科学的推論や高度な数学コーディングに優れた最先端のAIモデルが含まれます。さらに、モデルの学習に使われたデータセットや、AIを高速かつ低コストで実行するための数値精度アルゴリズムなども提供されます。 なぜNVIDIAはオープンソース化に踏み切ったのでしょうか。それは、広範な問題解決を可能にする「汎用知能」と、各業界特有の課題に対応する「特化知能」の両方を向上させるためです。同社はNemotronを通じて、あらゆる産業でAIの導入を大規模に推進することを目指しています。 既に多くの企業がNemotronの活用を進めています。例えば、セキュリティ企業のCrowdStrikeは、AIエージェントエコシステム強化に利用しています。また、DataRobotはNemotronを基に、より高速でコスト効率の高い推論モデルを開発するなど、具体的な成果が出始めています。 NVIDIAはNemotron開発で得た知見を次世代GPUの設計に活かす一方、コミュニティの技術も積極的に取り入れています。Alibabaの「Qwen」やMetaの「Llama」といったオープンモデルの技術を活用し、Nemotronのデータセットや機能を強化するなど、エコシステム全体での発展を目指しています。 開発者GitHubHugging Face、OpenRouterを通じてNemotronを利用開始できます。NVIDIA RTX PCユーザーはllama.cppフレームワーク経由でのアクセスも可能です。同社は今後もイベントなどを通じて、開発者コミュニティとの連携を深めていく方針です。

アリババ、NVIDIAと提携し物理AI開発基盤を導入

中国の電子商取引大手アリババは24日、米半導体大手NVIDIAとの提携を発表しました。NVIDIAが提供するロボットや自動運転向けの物理AI開発ツールを、自社のAIクラウドプラットフォームに統合します。この提携は、物理世界で動作するAIの開発を加速させることが目的です。 具体的には、NVIDIAの「Physical AI」ソフトウェアスタックを顧客に提供します。これにより開発者は、現実世界の環境を忠実に再現した3Dのデジタルツインを構築できます。この仮想空間で生成された合成データを用いることで、AIモデルを効率的かつ安全に訓練することが可能になります。 この技術は、特にロボティクスや自動運転車、スマート工場、倉庫といった分野での活用が期待されています。現実世界でのテストが困難または危険なシナリオでも、仮想環境でAIを訓練できるため、開発サイクルが大幅に短縮される可能性があります。 今回の提携は、AI事業を強化するアリババの戦略の一環です。同社はAI技術への投資を従来の500億ドルの予算を超えて拡大すると表明。ブラジルやフランスなどでデータセンターを新設し、世界91拠点にまでインフラを拡大する計画も明らかにしました。 アリババは同日、最新の大規模言語モデル(LLM)「Qwen 3-Max」も発表しました。1兆パラメータで訓練されたこのモデルは、同社史上最大かつ最も高性能とされ、特にコーディングやAIエージェントとしての活用に適していると主張しています。 一方のNVIDIAも、AI分野で積極的な投資を続けています。最近ではインテルへの50億ドルの出資や、OpenAIへの最大1000億ドルの投資計画を発表しており、AIエコシステムにおける影響力を一層強めています。

Qwen、AIの安全性をリアルタイム検知する新モデル公開

大規模言語モデル「Qwen」の開発チームは9月23日、AIとの対話の安全性を確保する新しいオープンソースモデルQwen3Guard」を公開しました。このモデルは、ユーザーの入力とAIの応答の両方を評価し、リスクレベルを判定します。主要な安全性ベンチマークで最高水準の性能を達成しており、責任あるAI開発を支援する強力なツールとなりそうです。 最大の特徴は、AIの応答生成中にリアルタイムで安全性を検知する「ストリーミング機能」です。これは「Qwen3Guard-Stream」バリアントで提供され、応答がトークン単位で生成されるそばから瞬時に安全性を評価します。これにより、ユーザー体験を損なうことなく、不適切なコンテンツの生成を動的に抑制できます。 従来の「安全か危険か」という二者択一の分類とは一線を画し、「物議を醸す(Controversial)」という中間的なラベルを導入した点も革新的です。この3段階の深刻度分類により、開発者はアプリケーションの特性や目的に応じて、安全基準の厳格さを柔軟に調整することが可能になります。これにより、過度な制限を避けつつ安全性を確保できます。 グローバルな利用を想定し、119の言語と方言に対応している点も強みです。インドヨーロッパ語族、シナ・チベット語族、アフロ・アジア語族など、世界中の多様な言語で一貫した品質の安全性評価を提供します。これにより、多言語対応のAIサービスを開発する企業にとって、導入のハードルが大きく下がることでしょう。 モデルは、オフラインでのデータセット評価などに適した生成モデル「Qwen3Guard-Gen」と、前述のリアルタイム検知用「Qwen3Guard-Stream」の2種類が提供されます。それぞれに0.6B、4B、8Bの3つのパラメータサイズが用意されており、開発環境やリソースに応じて最適なモデルを選択できます。 開発チームは、AIの安全性を継続的な課題と捉えています。今後はモデル構造の革新や推論時の動的介入など、より柔軟で堅牢な安全手法の研究開発を進める方針です。技術的な能力だけでなく、人間の価値観や社会規範に沿ったAIシステムの構築を目指し、責任あるAIの普及に貢献していくとしています。

Hugging Face、仏Scalewayを推論プロバイダーに統合しAI利用の選択肢拡大

統合の核心と利点

Scalewayを新たな推論プロバイダーに追加。
gpt-ossQwen3など人気モデルへ容易にアクセス。
モデルページからサーバーレスで即時推論可能。
ウェブUIとクライアントSDKからシームレス利用。

Scalewayの技術的強み

欧州データセンターによるデータ主権と低遅延。
トークンあたり€0.20からの競争的価格
構造化出力、ファンクションコーリングに対応。
高速応答(200ms未満)を実現。

柔軟な課金体系

カスタムキー利用でプロバイダーに直接請求
HF経由の請求は追加マークアップなし
PROユーザーは毎月2ドル分の推論クレジット付与。

Hugging Faceは、フランスのクラウドプロバイダーであるScalewayを新たな「Inference Provider(推論プロバイダー)」としてハブに統合しました。これにより、経営者エンジニアgpt-ossQwen3などの人気オープンウェイトモデルを、Scalewayの提供するフルマネージドなサーバーレス環境で利用可能になります。この統合は、AIモデルのデプロイと利用の柔軟性を高め、特に欧州におけるデータ主権への要求に応えるものです。

Scalewayが提供するのは「Generative APIs」と呼ばれるサーバーレスサービスであり、トークンあたり0.20ユーロ/100万トークンからという競争力のある従量課金制が特徴です。ユーザーはシンプルなAPIコールを通じて、最先端のAIモデルにアクセスできます。この手軽さとコスト効率は、大規模な本番環境での利用を検討する企業にとって大きなメリットとなります。

インフラストラクチャはパリの欧州データセンターに置かれており、欧州の利用者に対してデータ主権の確保と低遅延の推論環境を提供します。応答速度はファーストトークンで200ミリ秒未満を達成しており、インタラクティブなアプリケーションやエージェントワークフローへの適用に最適です。テキスト生成とエンベディングモデルの両方をサポートしています。

Scalewayのプラットフォームは高度な機能にも対応しています。具体的には、応答形式を指定できる構造化出力や、外部ツール連携を可能にするファンクションコーリング、さらにマルチモーダル処理能力を備えています。これにより、より複雑で実用的なAIアプリケーションの開発が可能になります。

利用者は、HFのウェブサイトUIだけでなく、PythonやJavaScriptのクライアントSDKからシームレスに推論を実行できます。課金方式は二通りあり、ScalewayのAPIキーを使う場合は直接プロバイダーに請求されます。HF経由でルーティングする場合は、HFによる追加のマークアップは発生しないため、透明性が高い価格で利用できます。

Hugging FaceのPROプランユーザーには、毎月2ドル分の推論クレジットが特典として提供されます。このクレジットは、Scalewayを含む複数のプロバイダーで横断的に使用可能です。本格的な商用利用や高いリミットが必要な場合は、PROプランへのアップグレードが推奨されています。