オープンウェイト(モデル学習手法・技術)に関するニュース一覧

Xiaomi、AI足場を自動改修 小型モデルが最も向上

HarnessXの中核

足場を独立した第一級部品化
モデルと設定の分離設計
AEGISによる自律進化
実行ログを改善信号に転用

検証結果

15組中14組で性能向上
平均14.5%の絶対改善
Qwen3.5-9Bで最大44%増
共進化で追加4.7%上乗せ

中国Xiaomiの研究チームは6月24日、AIエージェントの土台となるハーネス(足場ソフト)を実行中に自動で書き換える枠組み「HarnessX」を発表しました。ハーネスはLLMと外部環境をつなぐプロンプトやツール、記憶管理、制御フローの総体で、従来は人手で固定的に作られてきました。HarnessXはこれを自律的に改善し、15のモデルとベンチマークの組み合わせで平均14.5%の性能向上を示しました。

最大の特徴は、ハーネスを独立して交換可能な第一級の部品として扱う点です。どのモデルを使うかという設定と足場の設定を分離することで、土台のモデルに触れずに足場だけを入れ替え、進化させられます。各挙動は「プロセッサ」として実装され、周囲を壊さずに追加や削除ができます。

この最適化を自動化するのが、強化学習で足場を進化させるエンジン「AEGIS」です。実行ログを要約する「Digester」、構造的な変更を探る「Planner」、コード編集を生成し検証する「Evolver」、そして報酬ハッキングを検知する「Critic」と退行を防ぐゲートの4段構成で動きます。これにより、既に解けた処理を壊さずに失敗パターンを修正します。

検証では、ソフトウェア開発やWeb操作、接客対話など5分野で試験し、15組中14組で性能が向上しました。特に効果が大きかったのは性能の低い小型モデルで、オープンウェイトQwen3.5-9Bは身体的計画タスクで44%、コーディングで18.2%の上昇を記録しています。土台モデルの規模拡大だけが性能向上の道ではないことを示す結果です。

さらに、足場の進化で得たログをモデルの強化学習に転用する共進化により、追加で平均4.7%の上乗せも確認されました。足場とモデルを同時に改善することで、それぞれを単独で磨く場合の限界を超えられるといいます。実例では、Wikipedia収集に失敗したエージェント向けに、ブラウザを介さずAPIを直接叩く新ツールを自動生成し、失敗していた処理を解消しました。

一方で課題も残ります。足場を書き換えるメタエージェントにはClaude Opusなどの高性能な閉鎖モデルが必要で、オープンウェイトモデルが同役を担えるかは未検証です。土台モデルが弱すぎる場合は改善が頭打ちになる点も確認されました。それでも、高価な最先端モデルに乗り換える前に足場の進化を試す価値は大きく、研究チームはコードの公開を予定しています。

中国AI専門家も警戒、米中協調を提言

会議での提言

北京のAI国際会議での議論
米中競争を脇に置く提案
サイバー・システムリスク共有
核軍縮に似た協力の必要性

オープンモデルの懸念

ガードレール除去の危険性
一部高性能モデルの非公開化

米誌WIREDの記者は2026年6月、北京の中関村で開かれた大規模なAI国際会議に参加し、中国のトップ専門家らもAIの急速な発展に強い警戒感を抱いている実態を報じました。会議では再帰的自己改良やヒューマノイドロボットなどが議論され、公開鍵暗号の共同発明者ホイットフィールド・ディフィー氏らも登壇しました。記者が得た最大の示唆は、米中激しいAI競争を脇に置くべきだという点です。

背景には、より自律的に動くエージェント型AIがサイバー攻撃や予期せぬ障害を引き起こすシステミックリスクへの懸念があります。米国はこれまで中国のAIを経済・安全保障上の脅威とみなし、半導体や製造装置の輸出規制を強めてきました。直近では米政府がAnthropicに対し、外国籍者が最新モデルMythosやFable 5へアクセスするのを防ぐよう命じ、同社は全利用者のアクセスを一時停止しています。

それでも会議を主催した北京智源人工智能研究院での議論は、AIを拙速かつ無謀に開発すれば米中双方が損失を被るという認識を補強しました。MITの計算機科学者スティーブン・キャスパー氏は、国際協力の利点が安全保障上のリスクを上回るとする研究を示し、米ソが核の危険性をめぐり協力せざるを得なかった歴史になぞらえました。「AIにチェルノブイリの瞬間は必要ない」という言葉は、立場を超えた共通認識を表しています。

上海交通大学のリン・ユン教授は、当面はハッカーが優位に立つものの、AIを使った新たな防御策が時間とともに均衡を取り戻すと見ています。同教授は、競争があっても国際協力は優先課題であり、各国がリスクを同様に理解すれば共通の安全基準や技術標準を作りやすくなると指摘しました。機微な運用情報を晒さずにシステミックリスクを減らせる領域を見つけることが鍵だと述べています。

最も差し迫った論点は、開放性とリスクのバランスです。MoonshotのKimi、AlibabaのQwen、Z.aiのGLMなど中国製のオープンウェイトモデルは米国でも人気を集め、研究や技術革新に欠かせない存在となっています。一方、米国NvidiaのNemotronなどで巻き返しを図っていますが、ガードレールを外した低性能モデルでさえ危険になりうる転換点が近づいています。

実際、今週には中国のサイバーセキュリティ大手360が、Mythosに匹敵するハッキング能力を持つAIを開発したと表明しました。中国大手AI企業の匿名の関係者は、安全上の懸念から一部の先進モデルをオープンソースとして公開しなくなっていると明かしています。バックドアや脆弱性のない最新モデルをどう保証するかが、今後の業界共通の課題となりそうです。

Hugging Face、AIで週次リリースを自動化

リリース頻度の刷新

4〜6週から週次へ短縮
単一のGitHub Actionsで実行
オープン基盤のみで構築
リリースノート作成を自動化

信頼性の担保策

モデル下書き+人間が判断
決定論的検証でPR欠落を防止
ドキュメント差分を文脈に投入
1回あたり約0.25ドル

AI開発企業のHugging Faceは2026年6月23日、Pythonクライアント「huggingface_hub」のリリース作業をAIで自動化し、配信頻度を従来の4〜6週ごとから週1回へ高めたと自社ブログで明らかにしました。単一のGitHub Actionsワークフローで処理し、オープンソースツールとオープンウェイトのモデルだけで構築した点が特徴です。

従来の作業は一部が自動化されていたものの、リリースノートの執筆や告知文の作成は毎回手作業でした。数十件のPRをテーマ別に整理して書く作業に数時間を要し、小規模な更新でも実質半日仕事になっていたといいます。

同社はまず作業を機械的な処理と判断を要する作業に分けました。バージョン更新やコミット、タグ付けなどは自動化し、文章作成や強調点の選定といった「頭を使う部分」の下書きをAIに担わせる設計です。

信頼性の核となるのが「モデルが下書きし、人間が決める」という原則です。リリース対象のPR番号を事前にスクリプトで抽出して正解リストとし、モデルの出力に欠落や混入がないか決定論的に照合します。不一致があれば該当PRだけを修正させる反復処理で、PRの取りこぼしや誤記載を防ぎます。

精度面では、各PRが変更したドキュメントの差分をモデルの文脈に渡すことで、実在しないコード例の生成を抑えています。公開後はAIの初稿のみが下書きとして残り、担当者が15分程度の編集で仕上げてから正式版を配信する流れです。

セキュリティ面ではPyPIのTrusted Publishingを採用し、長期保管するトークンを排除しました。1回のリリースにかかる推論費用は約0.25ドルにとどまります。同社はこの「信頼するが検証する」仕組みを汎用的な手法として公開し、他のPythonライブラリにも展開する考えです。

Krea、画像生成AIを2秒のオープンウェイト公開

公開モデルの概要

学習用のRawと高速版Turbo
2秒での画像生成
120億パラメータの新設計

ライセンス条件

50席超は有償の企業契約
違法画像防止の技術対策を義務化
生成物の著作権は利用者

AI創作ツール新興企業のKreaは6月、新たな画像生成AI「Krea 2」のオープンウェイト版を公開しました。学習向けの「Krea 2 Raw」と高速生成向けの「Krea 2 Turbo」の2種で、いずれもHugging Faceから誰でもダウンロードできます。同社はAI画像が画一的になりがちな課題を踏まえ、表現の多様性と高い指示再現性の両立を掲げます。

技術的な中核は、ゼロから構築した120億パラメータの拡散トランスフォーマーです。Turboは知識蒸留により生成工程を8ステップまで圧縮し、一般的な消費者向けハードでも2K解像度の画像を約2秒で描き出します。一方のRawは事後学習や人間のフィードバックによる調整を施さない素の状態で、独自スタイルの追加学習に向く「白紙のキャンバス」と位置づけられています。

想定される使い方は「Rawで学習し、Turboで生成する」という流れです。Rawは作り込まれた作風の偏りがないため、建築製図や特定ブランドの素材といった独自表現を高い忠実度で吸収できます。学習したLoRAはそのままTurboへ移植でき、高速な試作と反復に活用できる仕組みです。

ライセンスは独自の「Krea 2 コミュニティライセンス契約」を採用しました。個人や小規模事業者は無償で商用利用や成果物の収益化ができ、Kreaは生成物の著作権を主張しないと明記しています。一方で席数が50を超える組織は企業向けの有償契約が必要となり、APIの利用も生成ごとに課金される別建てのサービスです。

従来のMITやApache 2.0と異なり、この契約には下流の行動規範が課されています。モデルを自社運用する事業者は、違法素材や同意なき性的画像、児童性的虐待素材、名誉毀損的な生成物を防ぐための入出力フィルターの実装を義務づけられます。怠れば契約違反となり、Kreaは重みの更新やアクセス停止を行う権利を持ちます。

Kreaは2022年にサンフランシスコで創業し、これまでに計8300万ドルを調達、利用者は191カ国で3000万人を超えると説明しています。複数のAIエンジンを束ねる集約サービスから、自社開発モデルを提供する企業への転換を進めてきました。今回の公開は、閉鎖的なAPIに対し制作者の自由度を重視する選択肢として、オープンウェイト市場での競争を一段と高めるものと位置づけられます。

IBM、エージェント開発簡素化のオープン基盤CUGAを公開

CUGAの狙い

IBM製のオープンソース基盤
プランニングと実行ループを内蔵
開発者はツールと指示文のみ記述
二十数本の単一ファイル実例公開

本番運用への道

6種類のポリシーで行動制御
小型オープンモデルでも安定動作
定義変更なしで主権環境へ再展開

米IBMは6月23日、エンタープライズ向けの自律型AIエージェント基盤「CUGA(Configurable Generalist Agent)」と、その実例集「cuga-apps」を公開しました。エージェント開発で必要となる計画立案、ツール呼び出し、状態管理といった配管作業を基盤側が肩代わりし、開発者エージェントが使えるツールの一覧と指示文を書くだけで済む点が特徴です。

従来のエージェント開発は、フレームワーク選定やツール接続など実装の下準備に時間を取られ、肝心の中身づくりは後回しになりがちでした。CUGAはこの順序を逆転させ、計画・実行・状態管理を内蔵することで、FastAPIのルートが書ければ全行を読めるほど簡潔なコードでアプリを構築できるとしています。

実例集には映画推薦からIBMクラウド構成提案まで、それぞれ単一ファイルで動く二十数本のアプリが含まれます。エージェント本体は4つの引数を持つコンストラクタで定義され、汎用機能は共有のMCPサーバーから取り込み、アプリ固有のツールだけをPython関数として書く構成です。共通のひな形を持つため、一つ読めば全体を理解できる設計になっています。

CUGAは行動の前に計画を立て、実行中に誤りを検知して再計画する反省ステップを備えます。状態管理や変数追跡を基盤が担うことで、小型のオープンウェイトモデルでも長い処理を安定してこなせるとし、ホスト版アプリは大規模な独自APIではなくgpt-oss-120bで動作しています。

本番運用では、6種類のポリシーによる制御をエージェント本体に直接付与できます。要求段階で拒否するIntent Guardや、危険なツール実行前に人間の承認を挟むTool Approvalなどがあり、ガバナンスを後付けの層ではなく基盤に最初から組み込む方針を取っています。

IBMはこの基盤を、データや実行エンジンを同一境界内に閉じ込めるSovereign Coreへと展開しました。ローカルで書いたエージェントを定義変更なしでそのまま隔離環境へ再展開できる点を強みとし、運用環境が読めるオープンなコードであることが主権性の裏付けになると主張しています。

Reflection、SpaceXと月150億円のAI計算契約

契約の規模

1億5000万ドルを支払い
総額最大63億ドル規模
2026年7月から2029年まで
Nvidia最新GB300に即時アクセス

戦略的な意味

Reflectionの初の計算契約
閉鎖モデル依存リスクの回避狙い

オープンソースAI新興企業のReflection AIは2026年6月22日、イーロン・マスク氏率いるSpaceXから大量のAI半導体を調達する計算契約を結んだとTechCrunchに明らかにしました。同社は2026年7月1日から2029年まで、テネシー州メンフィス近郊のColossus 2データセンターで、Nvidiaの最新AIチップ「GB300」と関連ハードウェアに即時アクセスする見返りに、月1億5000万ドルを支払います。

契約総額は最大63億ドルに達します。最初の3カ月経過後は、どちらの企業も90日前の通知で契約を解除できる条項が付いています。SpaceXAnthropicと結んだ月12億5000万ドル、Googleと結んだ月9億2000万ドルの契約に比べると規模は小さいものの、いずれも2029年7月まで続く点は共通しています。

Reflectionはこの初の計算契約を、自社のオープンウェイト戦略の価値を示す材料と位置づけました。同社は学習済みパラメータを公開するモデルを掲げ、AnthropicOpenAIのような閉鎖型フロンティアラボへの対抗軸として売り込んでいます。米政府がAnthropicの閉鎖モデル「Fable」「Mythos」を禁止して以降、オープンウェイト型モデルへの注目は高まっています。

2024年に元Google DeepMindの研究者2人が設立した同社は、今回の契約を「これまで公表されたオープンAIインフラへの最大級の投資の一つ」と説明しました。広報担当者は「閉鎖モデルだけに依存するリスクとコストを、より多くの国家や企業が認識している」とし、計算資源の拡大が世界最高のオープンモデルを大規模に構築する余力につながると強調しています。

なぜSpaceX半導体の貸し手になっているのでしょうか。Colossusデータセンターは元々、マスク氏が設立し現在はSpaceXの一部となったxAIが、自社のAI開発のために構築したものです。社内のAI事業が伸び悩むなか、SpaceXは保有する貴重なAIチップを世界トップ級のAIラボに貸し出す方向へと舵を切りました。

危険なAIモデルの登場は不可避と専門家

規制の経緯

米政府が輸出規制を発令
外国籍ユーザーの利用を禁止
AnthropicがFable5とMythos5を停止

リスクの本質

デュアルユースの両刃の剣
Fable5のガードレール解除を懸念
安全保障上のリスクと判断

今後の見通し

他社やオープンウェイトも追随
規制は問題を先送りするだけ

AI開発企業のAnthropicは先週末、米政府による輸出規制の指示を受け、新モデル「Claude Fable 5」と「Mythos 5」の提供を停止しました。指示は「いかなる外国籍の利用も禁じる」という内容で、同社は金曜以降ホワイトハウスと協議を続けていますが、提供再開の合意には至っていません。今回の措置は、高度なAIの能力が安全保障とどう交わるかを象徴する出来事です。

問題の核心は、Mythosが持つデュアルユース(両刃の剣)の性質にあります。同モデルはソフトウェアの脆弱性を見つけて防御側の修正を助ける一方、悪用すれば攻撃にも転用できる能力を備えています。Anthropic自身も発表時に「サイバーセキュリティや生物学の専門家にとって有益な問い合わせは、悪意ある者の手に渡れば危険になりうる」と警告していました。

同社は当初、Mythosを「Project Glasswing」という作業部会の限られた参加者にのみ提供してきました。先週はMythos 5もこの集団に非公開で提供する一方、Mythos級の能力を持つ「Claude Fable 5」は、生物学やサイバーセキュリティに関する回答を制限したうえで一般公開していました。能力の高さと公開範囲を慎重に切り分けていたわけです。

ところがトランプ政権は週末、両モデルの利用を制限する方針を示しました。理由は、Fable 5のガードレールが解除されればMythos 5の能力に完全アクセスできるとみて、国家安全保障上のリスクだと判断したためです。企業と政府の見解の隔たりが、提供再開を阻む形になっています。

ただ専門家は、この対立が厳しい現実を先送りしているだけだと指摘します。Anthropicは今この問題の最前線に立っているにすぎず、複数の企業やオープンウェイト開発者によるモデルも、近い将来Mythos 5と同等の能力を持つ可能性が高いというのです。すでにそうした能力を備えたモデルが存在する可能性さえあります。経営者にとっては、規制の動向と並行して、強力なAIが当たり前になる前提で対応を考える必要がありそうです。

Anthropic最新AI、米政府が輸出規制で停止

週末の緊迫した交渉

金曜午後の90分最後通告
CEOアモデイ氏が直接折衝
外国籍利用を全面禁止する指令
月曜時点で合意なし
国防総省との対立も再燃懸念

誇張された脅威論

他社モデルでも同等の能力
ガードレール回避報告が発端
セキュリティ専門家規制撤回要求

米政府は6月12日、AI開発企業Anthropicに対し、最新AIモデル「Mythos 5」と「Fable 5」へのアクセスを「あらゆる外国籍者」に禁じる輸出規制指令を出し、同社は両モデルを停止しました。トランプ政権はFable 5の安全機構が解除されればMythos 5の能力に全面アクセスでき、国家安全保障上のリスクになると判断したと報じられています。

交渉は緊迫しました。関係者によると、政権は金曜午後に同社へ電話で連絡し、両モデルの停止を求める90分間の最後通告を突きつけたとされます。応じなければ商務省の権限で輸出規制を科すという内容で、CEOのダリオ・アモデイ氏は財務長官や商務長官らと直接協議しましたが、月曜の会談も合意に至らず終了しました。

指令の発端は、Fable 5の「脱獄(ジェイルブレイク)」を可能にする手法が政府に共有されたことだとみられます。Anthropicはこれを「限定的で普遍的でない」ものと説明し、同様の挙動は自社モデル固有ではなくOpenAIGPT-5.5など他社モデルでも広く見られると反論しました。一部報道は、Amazonの研究者によるレッドチーム検証や、中国系組織のアクセス懸念が背景にあると指摘しています。

専門家の多くは、この対立が厳しい現実を覆い隠していると指摘します。サイバーセキュリティ研究者のブルース・シュナイアー氏は「単一モデルの問題ではなく、技術全体の潮流だ」と述べ、より小型で安価なオープンソースモデルも数カ月以内に同等の性能に追いつくと予測しました。Anthropic自身も発売当初から「6〜12〜24カ月後にこうした能力が広く利用可能になる世界に備えるべきだ」と訴えてきました。

業界からは強い反発が出ています。技術者やセキュリティ幹部らは日曜に規制撤回を求める公開書簡を発表し、Fable 5は脆弱性発見に長けるものの「唯一無二に優れているわけではない」と主張しました。書簡を主導したアレックス・スタモス氏は「我々は競争のさなかにあり、政策立案者はそれを理解していない」と批判し、米最先端モデルの優位はわずか数カ月にすぎないと警告しています。

影響は一社にとどまりません。OpenAIGoogleMicrosoftも同種の製品を投入しており、Anthropicへの規制が認められれば競合他社も同じ制約を受けうるためです。専門家は、今回の措置が米AI企業全体に打撃を与え、海外企業との代替契約やオープンウェイトモデルの導入を加速させ、結果的に中国に優位を与えかねないと懸念を示しています。

米輸出規制でAnthropicが最上位2モデルを停止

政府命令の概要

米商務省の輸出規制指令
外国籍向けアクセス全面遮断
公開3日後の異例の停止
旧モデルOpus 4.8へ自動振替

発端と反論

Amazon CEOの安全性懸念が契機
脱獄証拠は口頭のみと指摘
GPT-5.5でも同等能力と主張

企業への教訓

単一モデル依存の脆弱性露呈

AI開発企業Anthropicは6月12日夜、米政府の輸出規制指令を受け、最上位モデルClaude Fable 5とMythos 5への全アクセスを世界規模で遮断しました。米商務省が外国籍ユーザーへの利用停止を国家安全保障上の理由で命じたためで、有料の法人顧客やAnthropicの従業員すら一般公開からわずか3日後に利用できなくなる異例の事態となりました。

今回の措置で、進行中のFable 5・Mythos 5のセッションはエラーで終了し、新たな問い合わせは旧来の能力が劣るOpus 4.8などへ自動的に振り替えられます。Anthropicはブログで「これは誤解だと考えており、可能な限り早期にアクセスを回復させるべく取り組んでいる」と述べ、顧客に謝罪しました。

Wall Street Journalなどの報道によると、規制の引き金となったのはAmazonの安全性懸念でした。同社CEOのアンディ・ジャシー氏が財務長官スコット・ベッセント氏ら政府高官に対し、Amazonの研究者がFable 5を使ってサイバー攻撃に転用しうる情報を引き出せたと伝えたとされます。AmazonAnthropicの主要出資者でありながら、懸念を政府に共有した形です。

一方でAnthropicは政府の「脱獄(ジェイルブレイク)」という性格づけに反論しています。同社は政府から提示されたのは口頭による限定的な脱獄の証拠のみで、内容も特定のコードベースの欠陥を修正させる程度だと説明し、同様の能力はOpenAIGPT-5.5など他の公開モデルでも利用可能だと主張しました。一部のセキュリティ研究者も「これは脱獄ではない」と同社の見解を支持しています。

Anthropicと米政権は以前から対立してきました。同社が大規模な国内監視や自律型兵器への利用を拒んだことで、3月には国防長官ピート・ヘグセス氏が同社を「サプライチェーンリスク」と認定した経緯があります。今回の一件は、こうした緊張関係が再燃したものと受け止められています。

専門家は、今回の事態が単一モデルや単一プロバイダーへの依存リスクを浮き彫りにしたと指摘します。クラウド型の先端モデルは政府の監督と事業者の対応次第で突然停止しうるため、企業はモデル非依存の設計や複数プロバイダーの併用、自社ハードウェアでのオープンウェイトモデル運用などによる供給源の多様化を急ぐべきだと論じています。

Mistral、評価額200億ユーロでの調達協議と報道

調達の規模

30億ユーロ規模の調達協議
評価額200億ユーロ到達の見通し
昨秋から評価額ほぼ倍増

欧州の主権AI

欧州主権AIの代表格
仏軍や各国政府と連携

米勢との差

累計調達は約40億ドル止まり
OpenAIAnthropicに大差

フランスのAI企業Mistralが、約30億ユーロ(約35億ドル)の資金調達に向けて初期段階の協議に入ったと、Bloombergが6月12日に匿名筋を引用して報じました。この調達が成立すれば、企業評価額は約200億ユーロ(約231億ドル)となり、昨年9月のシリーズCで得た117億ユーロからほぼ倍増する計算です。なぜ今この規模なのか、その背景に欧州の事情があります。

Mistralは2023年に「フロンティアAIをすべての人の手に」という理念を掲げて創業した、欧州を代表するAIスタートアップの一つです。米国の競合と比べてオープンな開発方針を取り、一部の基盤的な大規模言語モデルをオープンウェイトで提供し、誰でも自由にカスタマイズできるようにしています。一方で、プログラミングや音声合成、文字認識といった用途に特化したクローズドモデルも展開しています。

近年、欧州各国が米国製テクノロジーへの依存を見直す動きを強めるなか、Mistralは親しみやすく「主権的」で国産の代替手段として自らを位置づけてきました。パリ近郊にデータセンターを建設中で、フランス軍やルクセンブルク政府、欧州の主要企業数社とも提携を進めています。

ただし、Mistralがこれまでに調達した資金はPitchBookによれば約40億ドルにとどまります。これは米国の競合であるOpenAI(1860億ドル)やAnthropic(1612.5億ドル)が集めた額のごく一部にすぎません。評価額の差も大きく、収益やモデルの普及、企業需要の面で米国勢が先行している現状を映しています。

今回の報道について、Mistralは取材に対し即座の回答を控えました。経営者エンジニアにとって、欧州発の主権AIがどこまで米国勢との差を縮められるかは、今後の調達と事業展開を占う重要な指標となりそうです。

電動スクーター創業者が宇宙データセンター企業を設立

Orbitalの事業構想

a16zのSpeedrunから卒業
500万ドルのシード調達
Starship実用化を前提とした計画
1万機の衛星で1GW提供が目標

技術と競争環境

Blackwellチップで初のデモ飛行
2028年にSpace-1 GPU搭載機を打上げ
StarcloudやBlue Originも参入
Starship価格が事業成立の鍵

電動キックボード企業Spin創業者Euwyn Poon氏が、宇宙空間でAI推論処理を行うデータセンター企業「Orbital」を設立し、a16zのアクセラレータプログラムSpeedrunを経て500万ドルのシード資金を調達しました。Poon氏は2017年にSpinを創業し翌年Fordに売却した経験を持ち、その後自らNvidia A100を購入してオープンウェイトモデルの提供を始めたことからAIコンピュート事業の価値を確信したといいます。

Orbitalの技術ロードマップは段階的です。まず提携先の衛星にNvidia Blackwellチップを搭載し、同社独自の放射線シールドと熱管理技術を検証するデモ飛行を実施します。2028年にはNvidiaSpace-1 Vera RubinクラスGPUを搭載した初の自社データ処理衛星の打上げを計画しており、段階的な推論処理の受託で収益化を目指します。

最終目標は各100kWの電力を供給する1万機の衛星による分散型ギガワット級コンピューティング基盤の構築です。ただし現行のFalcon 9の打上げ費用では経済性が成り立たず、SpaceXStarshipが商業運用を開始し打上げコストが大幅に下がることが事業成立の前提条件となっています。

宇宙データセンター市場には競合も多く、すでにGPUを軌道上に展開しているStarcloud、独自ロケット開発に着手したCowboy Space Company、大型ロケットNew Glennを持つBlue Originなどが参入しています。a16zパートナーのAndrew Chen氏は、Poon氏がSpinで100都市に25万台のスクーターを展開した実績を評価し、10年以上・50億ドル超の投資が必要になりうる長期プロジェクトへの出資に「2026年に始めるからこそ資本市場のエネルギーを活用できる」と語りました。

Google、ノートPCで動くGemma 4 12Bを公開

エンコーダ不要の新設計

エンコーダ廃止音声画像を直接処理
視覚処理は3500万パラメータの軽量モジュールで代替
音声は生波形をそのまま埋め込み空間に投影
推論遅延とメモリ消費を同時に削減

ローカル実行の実力

16GBのRAMまたはVRAMで動作可能
26B MoEモデルに迫るベンチマーク性能
256Kトークンの長大コンテキスト対応
Apache 2.0ライセンスで商用利用自由

企業導入の判断基準

機密データのオフライン処理に最適
エージェント構築向け関数呼び出しを標準搭載
音声30秒・動画60秒の入力上限に注意

Googleは2026年6月3日、オープンウェイトの大規模言語モデルGemma 4 12Bを公開しました。約120億パラメータながら16GBのRAMまたはVRAMで動作し、一般的なノートPCでマルチモーダルAIをローカル実行できます。4月に発表されたGemma 4ファミリーのモバイル向けモデルとデータセンター向け26Bモデルの間を埋める位置づけです。

最大の技術的特徴はエンコーダ不要の統合アーキテクチャです。従来のマルチモーダルモデルは画像音声を処理する専用エンコーダを別途必要としていましたが、Gemma 4 12Bは視覚パッチと生の音声波形をLLM本体の埋め込み空間に直接投影します。視覚エンコーダは単一の行列演算による3500万パラメータの軽量モジュールで置き換えられ、音声エンコーダは完全に廃止されました。この設計により推論遅延とメモリ使用量の両方が低減されています。

性能面では、メモリフットプリントが26B MoEモデルの半分以下でありながら、ベンチマークではそれに迫るスコアを達成しています。256Kトークンのコンテキストウィンドウを備え、長大な財務レポートやコードベースの処理にも対応します。ネイティブの関数呼び出し機能やステップバイステップの推論モードも搭載しており、自律型エージェントの構築基盤として設計されています。

企業にとっての実用的価値はどこにあるのでしょうか。医療・金融・防衛など機密データを外部APIに送信できない規制業界では、完全ローカルでのマルチモーダル処理が可能になります。Apache 2.0ライセンスで商用利用も自由です。一方、音声入力は30秒、動画は60秒という処理上限があり、長時間メディアの処理には向きません。Hugging Face・Kaggle・vLLM・llama.cppなど主要エコシステムとの統合も初日から対応しており、即座に本番導入を検討できる状態です。

MiniMax M3、低コストで主要モデル超え

性能と価格

主要ベンチマークGPT-5.5超え
API料金は米大手の8〜20%
月20ドルから利用可能なプラン
10日内にオープンウェイト公開予定

技術の核心

新型疎注意機構MSA採用
計算量を前世代の20分の1
100万トークンと多モーダル対応

企業利用

ローカル実行で情報漏洩防止
Opus 4.8には複雑推論で劣後

中国のAIスタートアップMiniMaxは6月1日、大規模言語モデル「M3」を公開しました。100万トークンの文脈長とネイティブな多モーダル機能を備え、主要ベンチマークの一部でGPT-5.5やGemini 3.1 Proを上回りながら、価格は米大手プロプライエタリモデルのわずか8〜20%に抑えた点が最大の特徴です。月額20ドルからのサブスクリプションで提供されます。

性能面では、自律エージェント指標のSWE-Bench Proで59.0%を記録し、GPT-5.5やGemini 3.1 Proを上回りました。BrowseCompでは83.5%を獲得し、Claude Opus 4.7の79.3%を超えています。一方で、先週公開されたClaude Opus 4.8には同指標で69.2%対59.0%と差をつけられ、複雑な推論を要する領域では依然としてクローズドモデルが優位を保っています。

低コストを支えるのが、新開発のMiniMax Sparse Attention(MSA)です。従来のTransformerは入力が長くなるほど計算量が二乗で増えますが、MSAは事前選別でKVブロックを効率処理することでこれを回避します。100万トークン処理時の演算負荷は前世代の20分の1に低下し、デコードは15倍に高速化しました。

同社はM3をオープンウェイトライセンスで10日以内に公開する方針です。これにより企業は自社ハードウェア上でローカル実行でき、公開API経由でのデータ漏洩リスクを排除できます。独自のファインチューニングや内部アーキテクチャの改変も可能になり、汎用モデルを専有資産に転換できる点が、コンプライアンス重視の企業に響きます。

製品面では、AIエージェント「MiniMax Code」がエージェントチーム機能を提供します。生成役と検証役が敵対的に協調する「Producer+Verifier」ループにより、人手の監督なしで数日間自律稼働が可能です。実際の検証では、ICLR2025受賞論文の再現に約12時間自律で取り組み、18件のコミットと23の実験図を生成したと報告されています。

DeepSeek-V4 Pro Maxと比べてもM3はコード合成で優位を保ち、SWE-Bench Proで59.0%対55.4%と僅差で上回りました。次世代のエージェント開発は、巨大なデータセットだけでなく、効率的なアーキテクチャ設計が鍵を握ることをM3は示しています。

Mistral AI、産業AIに本格参入し消費者向け助手をVibeに刷新

産業AI参入と大型提携

Airbus・BMWと提携開始
物理シミュレーションAIで設計を高速化
Emmi AI買収で物理AI基盤を獲得
ASMLで120倍高速な診断実現

インフラとVibe戦略

40億ユーロ規模のデータセンター投資
Le ChatをVibeに改称・エージェント
Medium 3.5にモデル統合を推進
2026年売上10億ユーロを目標

フランスのAIスタートアップMistral AIは2026年5月28日、パリで初の自社カンファレンス「AI NOW Summit」を開催し、産業向けAI事業への本格参入、パリ南部での新たな推論データセンター建設、消費者向けアシスタントの刷新を発表しました。共同創業者兼CEOのArthur Mensch氏は「AIプロバイダーとしてフルスタックを所有する必要がある」と語り、アメリカの大手クラウド企業に機密データを預けたくない企業の受け皿となる方針を明確にしています。

産業AI分野では、5月に買収したEmmi AIの物理シミュレーション技術とLLMを統合した「Mistral for Industrial Engineering」を発表しました。Airbusとは商用航空機から宇宙部門まで全事業で協業し、BMWは衝突シミュレーション向けの「Large Industry Model」構想でMistralを中核パートナーに選定。最大株主でもあるASMLは、リソグラフィ装置の故障診断にMistralのモデルを導入し、従来と同等の精度で120倍の高速化を達成したと報告しています。

インフラ面では、40億ユーロ規模の「Mistral Compute」計画のもと、フランスとスウェーデンにデータセンターを建設中です。既存のパリ南部40MW施設に加え、2026年第3四半期に推論専用の新施設(10MW)を開設予定。2030年までに1GWの容量を目指します。資金は7行の銀行団による8億3000万ドルのデット・ファイナンスなどで確保しています。

消費者向けアシスタント「Le Chat」はVibeに改称され、企業の生産性ツールとコーディングエージェントを統合したプラットフォームへと進化します。Google WorkspaceやSlackGitHubと連携し、メール要約やコード修正を一貫して処理できます。料金は無料プランからPro月額14.99ドル、Teams月額24.99ドルまで。モデル戦略ではPixtralやMagistraleなど個別製品を廃止し、旗艦モデルMistral Medium 3.5に機能を集約する方針を示しました。

Mistralは現在従業員1,000人を擁し、2026年の売上目標を10億ユーロ(約13.7億ドル)に設定しています。BNP Paribasでは本人確認プロセスの不備率を80%から10%に削減、フランスやシンガポールなど各国政府との協業も進めています。オープンウェイトモデル、自社インフラ、オンプレミス展開、物理シミュレーション、垂直特化のカスタマイズをすべて一社で提供する戦略で、OpenAIAnthropicとの差別化を図ります。

DeepSeek V4が75%値下げを恒久化、企業AI市場の価格構造を揺さぶる

価格と性能の両立

V4 Proの75%恒久値下げを発表
入力単価でClaude Sonnet7分の1
出力単価でGPT-5.5-Medの17分の1
キャッシュ読込は西側クラウド87倍安価

技術的な独自設計

KVキャッシュ使用量を90%削減する圧縮注意機構
100万トークン処理にHBMわずか5.48GB
FP4量子化で2倍の推論速度を実現

企業導入への影響

オープンウェイト+MITライセンスで自社運用可能
OpenRouterでトークン使用量首位を獲得

中国のAIスタートアップDeepSeekは2026年5月、フラッグシップモデルV4 Proの75%値下げを恒久措置とすると発表しました。標準入力コストは100万トークンあたり0.435ドル、標準出力は0.87ドルに設定され、AnthropicClaude SonnetOpenAIGPT-5.5-Medを大幅に下回ります。とりわけキャッシュ読込単価は100万トークンあたり0.003625ドルと、西側クラウドの87分の1という水準です。エージェント処理ではトークンの80〜90%がキャッシュ読込であるため、この価格差の実務的インパクトは極めて大きいといえます。

この低コストを支えるのが、DeepSeek独自のハードウェア・ソフトウェア協調設計です。圧縮スパースアテンション(CSA)と高圧縮アテンション(HCA)を組み合わせたハイブリッド注意機構により、100万トークンの文脈窓でKVキャッシュ使用量を90%削減しました。さらにMulti-head Latent Attention(MLA)で重いデータペイロードをGPUの高帯域メモリからシステムメモリへオフロードし、1.6兆パラメータモデルの100万トークン処理に必要なHBMをわずか5.48GBに抑えています。従来型のモデルでは同条件で89GBを消費するため、差は歴然です。

企業のトークンコスト問題も追い風です。UberはClaude CodeCursorの2026年度予算をわずか4カ月で使い切り、PinterestはオープンソースのQwenを自社データで追加学習して90%のコスト削減を達成しました。VentureBeatの調査によれば、企業のAIモデル選定基準で「トークン単価・ライセンスモデル」の重視度は2026年1月の25.4%から3月には36.7%へ上昇しています。自社管理の推論スタックを導入する企業も11.3%から17.9%へ増加しました。

開発者向けルーティングサービスOpenRouterでは、DeepSeek V4 Flashが週間トークン使用量で首位を獲得し、上位3モデルの合計は約6兆トークンに達しました。一方、OpenAIGPT-5.5は15位の4,700億トークンにとどまっています。V4 ProとV4 FlashはいずれもオープンウェイトかつMITライセンスで公開されており、企業は自社環境での自由なデプロイが可能です。

もっとも、地政学的リスクは無視できません。米国の金融・医療・防衛分野の大企業にとって、中国製モデルのサプライチェーンリスクや制裁リスクは依然として障壁です。一方、記事はAnthropicのようなプレミアムソフトウェア統合型のラボと、汎用APIトークン収入に依存するOpenAIとでは影響度が異なると指摘しています。高精度が求められるミッションクリティカルな業務にはプレミアムモデル、大量トークンを消費するバックグラウンドエージェント処理にはオープンウェイトという二層構造が、企業AIの新たな標準になりつつあります。

企業IT運用ベンチマークで最先端AIも正答率50%未満

ITBench-AAの概要

IBM等が企業IT障害診断を評価
Kubernetes障害59問で構成
全最先端モデルが正答率50%未満
SRE・FinOps・CISO領域へ拡張予定

モデル性能とコスト

Claude Opus 4.7が47%で首位
GPT-5.5が46%で僅差の2位
OSSモデルGLM-5.1が40%で健闘
試行回数の多さは精度に直結せず

IBMとArtificial Analysisは2026年5月27日、企業向けIT運用タスクでAIモデルの実力を測る初のベンチマーク「ITBench-AA」を公開しました。第1弾はサイト信頼性エンジニアリング(SRE)領域で、Kubernetesの障害対応を題材に59問が用意されています。モデルはログ・トレース・メトリクスなどを読み解き、インシデントの根本原因となるエンティティを特定する必要があります。

評価の結果、最も高いスコアを記録したのはClaude Opus 4.7(Adaptive Reasoning、Max Effort)の47%で、GPT-5.5(xhigh)が46%、Qwen3.7 Maxが42%と続きました。いずれも50%に届いておらず、既存のエージェント向けベンチマークの中で最も飽和度が低い部類に入ります。企業のIT運用自動化においてAIが実用水準に達するにはまだ距離があることが浮き彫りになりました。

興味深い知見として、試行ターン数の多さが精度向上に結びつかない点が挙げられます。GPT-5.5は平均31ターンで46%を達成した一方、Gemini 3.1 Pro Previewは平均83ターンを費やしながら30%にとどまりました。過剰な調査は障害注入メカニズムや付随症状を誤検出として拾いやすく、精度を下げる要因になっています。

コスト効率ではオープンウェイトモデルが存在感を示しています。Gemma 4 31B(Reasoning)はタスクあたり0.14ドルで37%を記録し、2.23ドルのGemini 3.1 Pro Preview(30%)をスコア・コストの両面で上回りました。GLM-5.1(Reasoning)も1.23ドルで40%と、商用モデルに匹敵する性能を低コストで実現しています。首位のClaude Opus 4.7はタスクあたり5.38ドルと最も高額であり、精度とコストのトレードオフが鮮明です。

ITBench-AAは今後、FinOps(財務運用)やCISO(情報セキュリティ)領域にも拡張される予定です。IBMが長年培った企業IT運用の専門知識を基盤としたデータセットと、Artificial Analysisのモデル評価ノウハウを組み合わせた本ベンチマークは、エージェント型AIの企業適用を見極める重要な指標になると期待されています。

Stability AIが6分超の楽曲生成モデルを公開

モデルの全体像

4モデルを同時公開
最大27億パラメータの大規模構成
小型版はオープンウェイトで提供
6分20秒の長尺楽曲に対応

ライセンスと事業戦略

Warner・Universal提携済み
学習データは完全ライセンス取得
プロ向け音楽制作ツールを開発中
音楽業界幹部の採用を加速

Stability AIは2026年5月20日、音声生成モデルの新シリーズ「Stable Audio 3.0」を発表しました。最上位モデルは6分20秒のプロ品質の楽曲を生成でき、2024年リリースの前世代モデルが対応していた長さの2倍以上を実現しています。

今回公開されたのは、小型SFX(4.59億パラメータ)、小型(同)、中型(14億パラメータ)、大型(27億パラメータ)の4モデルです。小型2モデルは最大2分の音楽デバイス上で生成でき、中型・大型は楽曲構造やメロディの一貫性を保った長尺生成が可能です。小型SFX・小型・中型の3モデルはオープンウェイトで公開され、誰でも利用・改変できます。

大型モデルはAPIとセルフホスティング経由のみの提供で、売上100万ドル超の企業はエンタープライズライセンスが必要となります。Stability AIは学習データがすべて正規にライセンスされたものであると説明しており、Warner Music GroupおよびUniversal Music Groupとの提携がその基盤となっています。

AI音楽生成の分野ではGoogleElevenLabsも参入していますが、SunoやUdioが著作権訴訟に直面するなど、学習データのライセンスが事業継続の鍵となっています。Stability AIはライセンス問題をクリアした点で競合との差別化を図っています。

同社はプロのミュージシャン向けに新たな製品群を開発中で、Universal AudioやFenderで最高デジタル責任者を務めたEthan Kaplan氏をプロ向け音楽事業の責任者として迎えました。AI音楽企業が音楽業界の経験者を積極的に採用する動きは業界全体のトレンドとなっています。

Cerebras、1兆パラメータを毎秒981トークン推論

ウェーハスケールの速度優位

Kimi K2.6を毎秒981トークンで処理
GPU6.7倍、中央値比23倍の速度
エージェント向けコーディング要求を5.6秒で完了
Artificial Analysisが独立検証で速度確認

企業向け推論市場の競争激化

Fortune 500企業が本番ワークロードを試験中
IPO直後で時価総額950億ドルに到達
NVIDIAGroq買収200億ドルが競争圧力に
OpenAI向け推論インフラも提供中

Cerebras Systemsは、2026年最大のテックIPOを完了した直後に、1兆パラメータの推論性能を公表しました。北京のMoonshot AIが開発したオープンウェイトモデルKimi K2.6を、独自のウェーハスケールチップ上で毎秒981トークンで処理し、GPUクラウドの最速を6.7倍上回る記録をベンチマーク企業Artificial Analysisが独立検証しています。

Kimi K2.6は1兆パラメータのMixture-of-Expertsモデルで、トークンあたり320億パラメータを活性化します。SWE-Bench Proで58.6を記録し、Claude Opus 4.6やGPT-5.4と同等以上の性能を示しており、AnthropicOpenAIの高額な閉鎖型APIの代替として企業の関心を集めています。コーディングエージェント処理など高付加価値タスクでの利用が想定されています。

Cerebrasの速度優位を支えるのはWafer-Scale Engine 3です。ディナープレート大の単一チップに44GBのオンチップSRAMを搭載し、NVLink対比200倍以上の帯域幅を実現します。MoEモデルの全エキスパートを同一ウェーハ上に配置することで、GPU間のデータ転送ボトルネックを解消しました。

同社はFortune 500のソフトウェア・金融・ヘルスケア企業にクラウド試験を提供中で、消費者向けAPIよりも企業顧客を優先する戦略を採っています。料金はGPUベースのプロバイダと同等水準としつつ、速度に対する付加価値で差別化を図ります。

競争環境も急変しています。NVIDIAが高速推論Groq200億ドル買収し、推論市場が訓練市場を商業的重要性で追い越しつつあることを示唆しました。Cerebrasは新ハードウェアの発表を予告しており、OpenAIとの200億ドル超の推論インフラ契約も含め、エージェント時代の推論基盤としての地位確立を目指しています。

AIエージェント総合ベンチマークが公開

評価フレームワークの設計

6種のベンチマークを統合
品質とコストの両面を計測
モデルでなくシステム全体を評価
統一プロトコルで横断比較を実現

主要な知見と公開物

同一モデルでもエージェント設計で成績が変動
汎用エージェントが専用型に匹敵
OSS重み モデルは先端比18〜29pt差
評価基盤Exgenticを完全公開

IBM ResearchとHugging Faceは2026年5月18日、AIエージェントシステムを総合的に比較評価するオープンベンチマーク「Open Agent Leaderboard」を公開しました。従来のベンチマークがモデル単体の性能を測定していたのに対し、本リーダーボードはツール選択・計画立案・エラー回復などを含むエージェントシステム全体を評価対象とし、品質とコストの両面を報告します。

評価にはSWE-Bench Verified(コード修正)、BrowseComp+(Web調査)、AppWorld(アプリ操作)、tau2-Benchの航空・小売・通信(顧客対応)の6種類のベンチマークを採用しています。それぞれ異なるタスク領域を扱うことで、エージェントの汎用性を多角的に測定できる設計です。各ベンチマークは統一プロトコルで標準化され、異なるエージェントが共通のインターフェースで接続できます。

注目すべき発見は、同一モデルでもエージェントアーキテクチャの違いでスコアとコストに大きな差が出る点です。上位3構成は同じモデルを使用しながら、エージェント設計の違いにより異なる結果を示しました。また汎用エージェントベンチマーク専用にチューニングされたシステムと同等以上の成績を収めるケースも確認されています。

失敗時の挙動にも差があり、失敗した実行は成功時より20〜54%高コストになることが判明しました。ツールの事前絞り込みがモデルを問わず性能を改善する効果も確認されており、エージェント設計が結果を左右する要因として存在感を増しています。

リーダーボード本体に加え、評価の再現と実行を可能にするフレームワーク「Exgentic」、手法と分析を記述した論文がすべてオープンソースで公開されています。オープンウェイトモデル(DeepSeek V3.2、Kimi K2.5)の結果も追加されましたが、フロンティア閉鎖モデルとの平均差は18〜29ポイントと報告されています。コミュニティからの新エージェントベンチマーク・モデルの追加投稿を受け付けています。

Perceptron Mk1、動画解析AIを大手比80〜90%安で提供開始

圧倒的な低コスト戦略

入力100万トークンあたり0.15ドル
GPT-5Gemini 3.1 Proの80〜90%安
フロンティアモデル級の性能を低価格帯で実現

動画理解の技術的優位性

最大2FPS・32Kトークンの連続動画処理
物理法則を理解した時空間推論能力
ピクセル精度の物体追跡とカウント

産業応用と事業展開

スポーツ・製造・ロボティクス分野で実導入開始
オープンウェイトのIsaacシリーズも並行展開

スタートアップPerceptronは2026年5月12日、独自開発の動画解析推論モデルMk1」を発表しました。入力100万トークンあたり0.15ドル、出力100万トークンあたり1.50ドルという価格設定で、AnthropicClaude Sonnet 4.5、OpenAIGPT-5GoogleGemini 3.1 Proと比較して80〜90%低いコストで利用できます。

Mk1の最大の特徴は、動画を静止画の連続ではなく時間的連続性を保って処理する点にあります。最大2FPSで32Kトークンのコンテキストウィンドウを活用し、遮蔽物越しでも物体の同一性を維持できます。空間推論ベンチマークのEmbSpatialBenchでは85.1を記録し、GoogleのRobotics-ER 1.5(78.4)を上回りました。

同モデルは物理推論を強みとしており、物体の動きや相互作用を時空間的に理解できます。バスケットボールのシュートがブザーの前か後かを判定するといった、因果関係の把握が求められるタスクにも対応します。アナログ計器の読み取りや、密集シーンでの数百単位のカウントも高精度で実行可能です。

創業者Armen Aghajanyan CEOとAkshat Shrivastavaは、いずれもMeta FAIRの出身です。2024年11月にワシントン州ベルビューでPerceptronを設立し、Metaで手掛けたマルチモーダル基盤モデルの研究を物理AIの領域へと発展させました。16カ月の開発期間を経て今回のリリースに至っています。

すでにスポーツ中継のハイライト自動切り出しや、製造ラインでの品質検査、ロボティクスの訓練データ生成といった実運用が始まっています。エッジ向けにはオープンウェイトのIsaacシリーズ(最新は0.2-2bプレビュー)も提供しており、200ミリ秒未満の応答速度でリアルタイム処理に対応します。APIとオープンウェイトの二本立てで、企業用途からコミュニティまで幅広い展開を狙います。

中国Moonshot AIが20億ドル調達、評価額200億ドルに

資金調達の全容

美団系VC20億ドルのリード
評価額は半年で約5倍に急騰
過去6カ月の累計調達額は39億ドル

急成長の背景

Kimi K2.6がOpenRouter利用数2位
ARRが4月に2億ドル突破
中国オープンウェイトモデルへの投資家需要が急拡大

中国AI業界の競争激化

DeepSeek450億ドル評価で初の外部調達へ
Zhipu AI・MiniMaxは香港上場済み

中国のAIスタートアップMoonshot AIが約20億ドル資金調達を実施し、評価額200億ドルに達しました。リードインベスターは美団のVC部門Long-Z Investmentで、清華資本、中国移動、CPE元豊なども参加しています。同社の評価額は2025年末の43億ドルから半年で約5倍に跳ね上がりました。

Moonshot AIは2023年に元Meta AI・Google Brainの研究者楊植麟氏が設立しました。オープンウェイトの大規模言語モデル「Kimi」シリーズが高い性能で注目を集め、最新のKimi K2.6はAIモデル配信プラットフォームOpenRouterで利用数2位にランクインしています。コーディング性能ではOpenAIAnthropicのモデルに迫る水準を示しました。

事業面では、有料サブスクリプションとAPI利用の急拡大により、年間経常収益(ARR)が4月時点で2億ドルを超えました。中国発のオープンウェイトモデルに対する投資家の関心が急速に高まっていることが、今回の大型調達の背景にあります。

中国AI業界全体が活況を呈しています。DeepSeek評価額約450億ドルで初の外部資金調達を検討中と報じられ、Zhipu AIMiniMaxはすでに香港市場に上場し、それぞれ時価総額約559億ドル、330億ドルに達しています。Moonshot AIのモデルはOpenAIChatGPTGoogleGeminiAnthropicClaude、さらにByteDanceのDoubao、AlibabaのQwenなどと競合しており、中国AIスタートアップ間の競争は一段と激しさを増しています。

DeepSeek初の資金調達、評価額450億ドルに急騰

資金調達の背景

初のVC調達を交渉中
評価額200億ドルから450億ドルへ急騰
人材流出対策で従業員に株式付与へ
創業者の梁文鋒が約90%を保有

中国の国家戦略

国家半導体ファンドがリード投資家
TencentとAlibabaも参加協議中
Huawei製チップに最適化済み
米国技術への依存回避が狙い

中国のAIラボDeepSeekが、設立以来初となるベンチャーキャピタルからの資金調達に向けて交渉を進めています。Financial TimesとBloombergの報道によると、評価額はわずか数週間で200億ドルから450億ドル(約6兆8000億円)へと急騰しました。

DeepSeekは2025年初頭、米国の大手AIモデルと比較してごくわずかな計算資源とコストで大規模言語モデルを構築したことで注目を集めました。その後も推論コーディングの分野でトップモデルに匹敵する性能を維持しつつ、オープンウェイトモデルとしてHugging Faceで公開を続けています。

創業者でヘッジファンド経営者梁文鋒氏は同社の約90%を保有しており、これまで外部投資を求めていませんでした。しかし競合他社による研究者の引き抜きが相次ぎ、従業員に株式を付与するため資金調達に踏み切ったとFTは伝えています。

本ラウンドは中国の国家半導体投資ファンド「国家集成電路産業投資基金」が主導する見通しです。さらにTencentやAlibabaも参加を協議中とBloombergは報じています。DeepSeekがHuawei製チップに最適化されている点は、米国技術への依存を回避したい中国にとって戦略的に重要な組み合わせとなっています。

DeepInfraがHugging Face推論プロバイダーに参加

統合の概要

サーバーレス推論基盤として統合
100超のモデルを低コストで提供
会話・テキスト生成タスクに対応

対応モデルと利用法

DeepSeek V4やKimi-K2.6等に対応
Python・JS両SDKから利用可能
HF経由ルーティングで追加料金なし

今後の展開

画像動画生成等も順次対応予定
PROユーザーに月2ドル分のクレジット

DeepInfraが、Hugging Face Hubの推論プロバイダーとして新たに統合されました。DeepInfraは業界でも最も低コストなトークン単価を誇るサーバーレスAI推論プラットフォームで、100以上のモデルカタログを持ち、開発者が最小限のセットアップでAI機能をアプリケーションに組み込めます。

今回の初期統合では、会話およびテキスト生成タスクをサポートしています。DeepSeek V4Kimi-K2.6、GLM-5.1など人気のオープンウェイトLLMにアクセスできるようになりました。テキストから画像動画への生成やエンベディングなど、追加タスクへの対応も順次展開される予定です。

利用方法は2つあります。ユーザーが自身のDeepInfra APIキーを設定して直接リクエストを送る方法と、Hugging Face経由でルーティングする方法です。後者の場合、プロバイダーのトークンは不要で、標準的なプロバイダー料金のみが課金されます。Hugging Face側の追加マークアップはありません。

SDKとの統合も進んでおり、Pythonのhuggingface_hubやJavaScriptの@huggingface/inferenceから簡単に利用できます。さらにPi、OpenCode、Hermes Agentsなど主要なエージェントハーネスにも統合済みで、追加のコードなしでDeepInfraホストモデルを活用可能です。PROプランのユーザーには毎月2ドル分の推論クレジットが付与され、複数プロバイダーにまたがって利用できます。

Poolsideがローカル実行可能な無料コーディングAIモデルを公開

Lagunaモデルの概要

Apache 2.0で公開のXS.2
33Bパラメータ、活性3Bの軽量MoE
ローカルGPU1枚で動作可能
企業向け225BのM.1も同時発表

性能と開発環境

SWE-bench Proで44.5%達成
独自合成データとRLで訓練
ターミナル型エージェントpool提供
モバイル対応IDE shimmer公開

米AIスタートアップPoolsideは2026年4月28日、コーディング特化の大規模言語モデル「Laguna」シリーズ2モデルを発表しました。小型モデルのLaguna XS.2はApache 2.0ライセンスで無料公開され、消費者向けGPU1枚でローカル実行できるのが大きな特徴です。同社は2023年にサンフランシスコで設立された約60人の組織で、政府・公共セクター向けにセキュアなAI開発を進めてきました。

Laguna XS.2は総パラメータ数33B、活性パラメータ数3BのMixture of Experts構成を採用しています。Apple SiliconのMacでは統合メモリ36GB以上、PCではRTX 5090など24〜32GB以上のVRAMがあれば4ビット量子化で動作します。一方、上位モデルのLaguna M.1は225BパラメータのMoEで、企業や政府向けの高セキュリティ環境での複雑なソフトウェア工学タスクに最適化されています。

ベンチマーク性能は注目に値します。XS.2はSWE-bench Proで44.5%を達成し、Claude Haiku 4.5の39.5%やGemma 4 31Bの35.7%を上回りました。M.1もSWE-bench Proで46.9%、SWE-bench Verifiedで72.5%を記録しています。訓練には30兆トークンが使われ、そのうち約13%は合成データです。独自のMuonオプティマイザにより標準手法より約15%速く学習が進むとしています。

開発者向けツールも同時に公開されました。poolはターミナルベースのコーディングエージェントで、同社が内部のRL訓練に使うのと同じAgent Client Protocolサーバとして機能します。shimmerクラウドネイティブの開発環境で、スマートフォンからでもフル機能の開発が可能です。GitHubとの連携や既存リポジトリのインポートにも対応しています。

Poolsideがオープンウェイト公開に踏み切った背景には、「西側諸国には強力なオープンウェイトモデルが必要」という信念があります。中国企業のDeepSeekやXiaomiが低コストのオープンモデルで存在感を示すなか、米国発のオープンな対抗馬として位置づけを狙っています。なお、同社のモデルは他社のようにQwenベースのファインチューニングではなく、独自にゼロから訓練されたものです。コミュニティによる評価とファインチューニングを通じた改善を期待しているとしています。

NVIDIA、視覚・音声・言語を統合した軽量マルチモーダルAIモデルを公開

モデルの特徴と性能

視覚・音声・テキストを単一モデルで処理
文書理解など6つのベンチマークで首位
従来比最大9倍のスループット向上

アーキテクチャと技術基盤

Mamba-Transformer-MoEのハイブリッド構成
動的解像度で高精細文書に対応
音声エンコーダによるネイティブ音声入力

活用領域と展開

GUIエージェントや文書分析に対応
オープンウェイトで公開・商用利用可

NVIDIAは2026年4月28日、マルチモーダルAIモデルNemotron 3 Nano Omniを公開しました。このモデルはテキスト・画像動画音声を単一のアーキテクチャで処理できるオムニモーダルモデルで、AIエージェントの構築を効率化することを目的としています。パラメータ規模は30B(アクティブ3B)で、従来のように複数モデルを組み合わせる必要がなくなります。

性能面では、文書理解のMMLongBench-DocOCRBenchV2、動画理解のWorldSense、音声理解のVoiceBenchなど6つの主要ベンチマークでトップの精度を記録しています。同等の対話性能を持つオープンなオムニモデルと比較して、マルチドキュメント処理で7.4倍、動画処理で9.2倍のシステム効率を実現しました。

アーキテクチャの核となるのは、23層のMamba状態空間モデル、23層のMixture-of-Experts(128エキスパート、Top-6ルーティング)、6層のグループ化クエリアテンションを組み合わせたハイブリッド構成です。視覚側にはC-RADIOv4-Hエンコーダを採用し、動的解像度処理により100ページ超の文書やGUIスクリーンショットにも対応します。音声側にはParakeet-TDT-0.6B-v2エンコーダを搭載し、最大20分の音声入力をネイティブに処理できます。

想定される活用領域は、企業文書の分析、GUI操作を行うコンピュータ使用エージェント、長時間の動画音声理解、自動音声認識、そして汎用的なマルチモーダル推論の5分野です。すでにH Company、Aible、Eka Care、Foxconnなどが採用を進めており、Dell Technologies、Oracle、Infosysなども評価段階にあります。

モデルはオープンウェイトで公開されており、BF16・FP8・NVFP4の各チェックポイントがHugging Faceからダウンロード可能です。訓練データや手法も公開されているため、NVIDIA NeMoを使った独自のカスタマイズが可能です。NVIDIA Jetsonのようなエッジデバイスからデータセンタークラウドまで幅広い環境にデプロイでき、Nemotronファミリー全体では過去1年で5,000万回以上のダウンロードを達成しています。

AI脆弱性発見の進化でスクリプトキディが深刻な脅威に

AI攻撃能力の急拡大

Mythos脆弱性発見を自動化
スクリプトキディがAIで高度な攻撃可能に
ゼロデイ発見が数週間から数時間へ短縮

企業に迫られる防御の再構築

パッチ適用の速度が追いつかない懸念
セキュリティ人材の確保が急務
安全なアーキテクチャへの投資が不可欠

Anthropicが発表したAIモデル「Mythos」が、あらゆるソフトウェアの脆弱性を自動的に発見できる能力を示し、サイバーセキュリティ業界に衝撃を与えています。技術的な知識を持たない「スクリプトキディ」と呼ばれるアマチュアハッカーがAIツールを活用することで、従来は不可能だった高度な攻撃を実行できるようになる懸念が急速に広がっています。

AIによる脆弱性発見能力の進歩は、Mythos以前から加速していました。2025年6月には自律型セキュリティプラットフォームXBOWがバグ報奨金プラットフォームHackerOneで人間のハッカーを上回り、同年8月のDARPA AIxCCでは複数のAIチームがDARPAが意図的に仕込んだバグだけでなく、未知のバグまで発見しました。セキュリティ研究者のTim Becker氏は、かつて数週間から数カ月かかっていた脆弱性発見が、AIツールにより数時間で可能になったと証言しています。

特に懸念されるのは、攻撃の対象範囲が飛躍的に広がる点です。サイバーセキュリティ企業Trail of BitsのCEO Dan Guido氏は、AIが侵入の途中で遭遇した未知のソフトウェアの脆弱性をリアルタイムで発見し、エクスプロイトを生成できると指摘しています。オープンウェイトモデルを使えば、悪意ある攻撃者がAnthropicOpenAIのサーバーを経由せずに独自にAIを運用でき、監視を回避することも可能です。

一方で、過去にも自動化ツールの登場時には脅威が過大評価されたケースがあるとの指摘もあります。Security Superintelligence LabsのJoshua Saxe氏は、ツールの存在がただちに犯罪行為の増加に直結するわけではなく、攻撃者側にも組織的・人的な摩擦が存在すると述べています。ただし、脆弱性の公開からエクスプロイトコードの登場までの時間が「ほぼゼロ」に縮まっている現実は、企業のリスク対応に根本的な変化を求めています。

企業が取るべき対策として、Luta SecurityのKatie Moussouris氏はネットワークのセグメンテーション、メモリ安全なコードの採用、フィッシング耐性認証の導入といった基本的なセキュリティ対策の徹底を訴えています。同時に、AIの効率化によりセキュリティ人材が削減されている現状を危惧し、脅威ハンターやインシデント対応者の増員が必要だと主張しています。「安全なソフトウェアをそもそも構築しなければならない。インシデント対応だけではレジリエンスは実現できない」と同氏は強調しています。

Guido氏は「2026年はすべてのセキュリティ負債の返済期限だ」と警告し、企業が今すぐ対策を講じなければ年末には壊滅的な被害が生じる可能性があると述べています。AnthropicClaude Opus 4.7で悪意あるサイバーセキュリティリクエストをブロックするセーフガードを導入するなど対策を進めていますが、防御と攻撃のスピード競争は今後さらに激化する見通しです。

DeepSeek V4公開、米国最先端モデルに迫る性能を7分の1の価格で提供

性能とコストの全体像

総パラメータ1.6兆、稼働49Bの最大オープンモデル
コンテキスト100万トークン対応
GPT-5.5の約7分の1のAPI価格
BrowseCompで83.4%、Opus 4.7超え

アーキテクチャの技術的飛躍

CSAとHCAのハイブリッドアテンション採用
KVキャッシュを従来比2%に圧縮
ツール呼び出し間で推論履歴を保持

市場と地政学への波及

Huawei Ascend NPUでの推論を公式に検証
MIT Licenseで完全商用利用可能
米中AI知財摩擦のさなかの公開

中国のAIスタートアップDeepSeekは2026年4月24日、次世代大規模言語モデルDeepSeek V4のプレビュー版を公開しました。V4-Proは総パラメータ1.6兆、稼働パラメータ49BのMixture-of-Experts構成で、オープンウェイトモデルとしては世界最大です。コンテキスト長は100万トークンに対応し、APIの標準価格はGPT-5.5の約7分の1、Claude Opus 4.7の約6分の1に設定されています。DeepSeekは「フロンティアモデルとの差を事実上埋めた」と主張しています。

ベンチマーク結果を見ると、V4-Pro-MaxはBrowseCompで83.4%を記録し、Claude Opus 4.7の79.3%を上回りました。SWE Verifiedでは80.6%でOpus 4.6 Maxの80.8%にほぼ並び、MCPAtlas Publicでも73.6%と僅差です。一方、GPQA Diamondでは90.1%にとどまり、GPT-5.5の93.6%やOpus 4.7の94.2%には及びません。総合的にはGPT-5.5とOpus 4.7がリードを保つものの、価格対性能比ではDeepSeekが圧倒的です。

技術面では、Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を交互に配置するハイブリッドアテンションが最大の特徴です。100万トークン時点でV3.2比KVキャッシュ使用量を10%、推論FLOPsを27%に削減しました。従来型のGrouped Query Attentionと比較するとKVキャッシュは約2%で済みます。エージェント用途では、ツール呼び出しを含む会話で推論履歴をターンをまたいで保持する仕組みも導入されています。

地政学的にも注目すべき点があります。DeepSeekはHuawei Ascend NPUでのファインチューニング推論を公式に検証し、Nvidia環境で1.5倍から1.73倍の高速化を達成したと報告しました。米国がAIチップ輸出規制を強化し、AnthropicOpenAIDeepSeekによるモデル蒸留を非難するなか、中国ハードウェアでの稼働実績を明示した形です。モデルはMIT Licenseで公開され、商用利用に制限はありません。

廉価モデルのV4-Flashは入力100万トークンあたり0.14ドル、出力0.28ドルと、GPT-5.5比で98%以上安い水準です。DeepSeekは旧エンドポイントを2026年7月に完全廃止し、全トラフィックをV4アーキテクチャへ移行すると発表しました。コミュニティからは「第二のDeepSeekモーメント」との声が上がっており、企業のAI導入におけるコスト計算を根本から見直す契機になりそうです。

企業AI防衛に死角、端末推論とデータドリフト

端末上の影のAI利用

開発者がローカルで未承認モデルを実行
ネットワーク監視では検知不能
コード汚染やライセンス違反の温床

データドリフトの脅威

訓練時と異なるデータで精度が低下
攻撃者がモデルの盲点を悪用
予測信頼度の低下が早期警告に

対策の方向性

端末レベルのガバナンス強化が急務
社内モデルハブで安全な選択肢を提供

企業のAIセキュリティに新たな死角が生まれています。従来のセキュリティ対策はクラウドAPIへのデータ流出を監視する方針でしたが、開発者が高性能ノートパソコン上でオープンウェイトの大規模言語モデルをローカル実行する「Shadow AI 2.0」とも呼ばれる現象が広がり、ネットワーク監視では捕捉できないリスクが顕在化しています。同時に、セキュリティ機械学習モデルの入力データが時間とともに変質する「データドリフト」も、防御力を静かに蝕んでいます。

端末上でのAI推論が実用的になった背景には、3つの技術的変化があります。64GBメモリ搭載のMacBook Proで700億パラメータ級モデルが動作可能になったこと、量子化技術の普及、そしてOllamaなどのツールによる導入の容易さです。開発者はWi-Fiを切った状態でソースコードレビューや機密文書の要約を行えるため、プロキシログやクラウド監査証跡が一切残りません。

ローカル推論がもたらすリスクは3種類に分類されます。第一に、未検証モデルが生成したコードがセキュリティ脆弱性を含んだまま本番環境に混入する「整合性リスクです。第二に、非商用ライセンスのモデルで業務コードを生成してしまう「コンプライアンスリスク」があります。第三に、Pickle形式のPyTorchファイルなど悪意あるペイロードを含みうるモデルファイルをダウンロードしてしまう「サプライチェーンリスク」です。

一方、データドリフトの問題も深刻です。機械学習モデルは過去のデータのスナップショットで訓練されるため、現在の攻撃パターンと乖離すると検知精度が低下します。2024年にはエコースプーフィング手法でメール保護サービスのML分類器が突破される事例も発生しました。性能指標の急落、統計分布の変化、予測挙動の変動、信頼度スコアの低下、特徴量間の相関変化が、ドリフト発生の5つの兆候です。

対策としては、ネットワーク監視だけでなくエンドポイントレベルでのガバナンス強化が不可欠です。MDMやEDRを活用して未承認の推論ランタイムを検知し、社内にライセンス検証済みのモデルカタログを整備することが推奨されています。データドリフトに対しては、KS検定やPSIによる継続的な分布監視と、最新データによるモデル再訓練が基本的な対処法です。AIセキュリティの境界線はクラウドから端末へと回帰しつつあり、企業は両面からの防御態勢を構築する必要があります。

Arceeが新推論モデルTrinity公開、中国製AIへの代替狙う

少人数で大規模モデル開発

26人体制で4000億パラメータのLLM構築
資金は2000万ドルの限られた予算
新モデル「Trinity Large Thinking」を公開
Apache 2.0ライセンスで完全オープンソース

中国製モデルへの対抗

西側企業に中国製AI不要の選択肢を提供
オンプレミスでの自社運用にも対応
OpenClawで人気モデルの一つに成長
MetaLlama 4とは異なる真のOSSライセンス

米国の小規模スタートアップArceeが、新たな推論モデルTrinity Large Thinking」を公開しました。同社はわずか26人の従業員と2000万ドルの予算で、4000億パラメータの大規模言語モデルをゼロから構築しています。CEOのMark McQuade氏はTechCrunchに対し、非中国企業としては史上最も高性能なオープンウェイトモデルだと述べています。

Arceeの狙いは、米国や西側諸国の企業が中国製AIモデルを使う必要をなくすことにあります。中国製モデルは高い性能を持つ一方で、データが中国政府の手に渡るリスクが指摘されています。Arceeのモデルはダウンロードして自社環境で運用できるほか、クラウド経由のAPI利用も可能です。

同社のモデルはAnthropicOpenAIのクローズドモデルには性能面で及ばないものの、大手企業の方針変更に左右されない利点があります。実際、Anthropicが先週OpenClawユーザーに追加課金を求めたことを受け、ArceeのモデルはOpenRouterのデータによるとOpenClawで人気の高いモデルの一つとなっています。

ライセンス面でもArceeは差別化を図っています。MetaLlama 4は真のオープンソースとは言えないライセンス問題が指摘されていますが、ArceeのTrinityシリーズはすべてApache 2.0ライセンスで公開されており、商用利用を含め制約のない形で提供されています。

Cohere、オープンウェイト音声認識モデルを公開

モデルの性能

WER 5.42%で業界最高精度
Whisper Large v3の7.44%を大幅に上回る
14言語対応(日本語含む)
20億パラメータ、Apache-2.0ライセンス

企業導入の優位性

自社GPUでのローカル運用が可能
データ残留リスクなしの音声処理
RAGエージェント構築に即戦力
商用利用を前提とした設計

Cohereは、オープンウェイトの自動音声認識モデル「Transcribe」を公開しました。20億パラメータのこのモデルは、平均単語誤り率(WER)5.42%を達成し、企業の音声パイプラインに直接組み込める精度を実現しています。

TranscribeはHugging FaceのASRリーダーボードで首位を獲得しました。OpenAIのWhisper Large v3(WER 7.44%)、ElevenLabs Scribe v2(5.83%)、Qwen3-ASR(5.76%)をいずれも上回り、商用レベルの音声認識における新たな基準を打ち立てています。

最大の特徴は、Apache-2.0ライセンスによる商用利用と自社インフラでのローカル運用が可能な点です。従来のクローズドAPIではデータの外部送信が避けられず、オープンモデルでは精度が不十分という課題がありましたが、Transcribeはその両方を解決しています。

対応言語は英語、フランス語、ドイツ語、日本中国語、韓国語など14言語です。会議理解を測るAMIデータセットで8.15%、多様なアクセントを評価するVoxpopuliで5.87%と、幅広い音声タスクで高い性能を示しています。

企業のエンジニアリングチームにとって、RAGパイプラインエージェントワークフロー音声入力を組み込む際、データ残留リスクやレイテンシの問題なく本番運用できる選択肢が加わりました。早期導入企業からは、精度とローカル展開の両立が高く評価されています。

Mistral AIが音声合成モデルをオープンウェイトで無償公開

モデルの技術的特徴

30億パラメータでスマホ動作可能
音声まで90ミリ秒の低遅延
リアルタイムの6倍速音声生成
量子化時わずか3GBのRAM消費
9言語対応で5秒の音声で声質複製

競合との差別化戦略

ElevenLabs比で約70%の選好率
オープンウェイトで完全自社運用可能
音声データの主権を企業側に確保

企業向けAI基盤の完成

音声認識から合成まで一気通貫パイプライン
Forge・AI Studioと統合しフルスタック提供
年間売上10億ドル超えの見通し

Mistral AIは2026年3月26日、企業向けテキスト音声合成モデル「Voxtral TTS」をオープンウェイトで公開しました。パリ拠点の同社は、競合他社がAPIベースの従量課金モデルを採用する中、モデルの重みを無償提供し、企業が自社サーバーやスマートフォン上で自由に運用できる方針を打ち出しています。

技術面では、34億パラメータのTransformerデコーダ、3.9億パラメータのフローマッチング音響変換器、3億パラメータの自社開発ニューラルオーディオコーデックの3層構造を採用しています。初音声までの遅延はわずか90ミリ秒で、リアルタイムの約6倍速で音声を生成します。量子化すれば約3GBのRAMで動作し、旧型ハードウェアでもリアルタイム処理が可能です。

同社の人間評価では、ElevenLabs Flash v2.5に対して62.8%、音声カスタマイズでは69.9%の選好率を達成しました。わずか5秒の参照音声で声質を複製でき、ゼロショットの多言語クロスリンガル音声適応も実現しています。9言語に対応し、話者のアクセントや声質を保持したまま言語を切り替えられるため、多国籍企業の顧客対応や社内コミュニケーションに大きな可能性があります。

この公開は、Mistralが過去1年で構築してきた企業向けAIフルスタック戦略の集大成です。音声認識モデル「Voxtral Transcribe」、カスタマイズ基盤「Forge」、本番運用基盤「AI Studio」と組み合わせることで、外部プロバイダーに依存しない音声エージェントパイプラインが完成します。CEOのArthur Mensch氏は年間売上10億ドル超の見通しを示しています。

同社科学担当副社長のPierre Stock氏は、音声データには感情やアイデンティティが含まれ、金融・医療・政府機関にとって第三者APIへの送信はコンプライアンス上のリスクだと指摘しました。欧州ではデジタルサービスの80%以上を米国企業に依存しており、Mistralデータ主権を重視する欧州企業の受け皿として、今後は完全エンドツーエンドの音声AIモデルへの進化を目指すとしています。

Intercom、独自AIモデルでGPT-5.4超えを主張

Apex 1.0の性能

解決率73.1%GPT-5.4超え
応答速度3.7秒で最速
幻覚を65%削減
フロンティアモデルの5分の1のコスト

ポストトレーニング戦略

顧客対応データで強化学習実施
ベースモデル名は非公開

事業への影響

Fin ARR1億ドルに迫る成長
来年には売上の半分を占める見通し

Intercomは2026年3月、顧客対応に特化した独自AIモデル「Fin Apex 1.0」を発表しました。同社のベンチマークによれば、顧客問い合わせの解決率は73.1%に達し、OpenAIGPT-5.4やAnthropicClaude Opus 4.5の71.1%を上回ると主張しています。

Apex 1.0は応答速度でも優位性を示し、3.7秒で回答を生成します。これは競合より0.6秒速い数値です。さらにClaude Sonnet 4.6と比較して幻覚(ハルシネーション)を65%削減したとされ、フロンティアモデルを直接利用する場合の約5分の1のコストで運用できます。

同社CEOのイーガン・マッケイブ氏は「事前学習はコモディティ化した。フロンティアはポストトレーニングにある」と語ります。Intercomは週200万件の顧客対話から蓄積した独自データを用いて強化学習を実施し、適切なトーンや会話構造、解決判断を学習させました。

一方で、ベースとなるモデル名の公開を拒否している点は議論を呼んでいます。同社はオープンウェイトモデルを使用したことは認めつつも、競争上の理由から具体名を明かしていません。「透明性」を掲げながら核心を伏せる姿勢には、業界から厳しい目が向けられる可能性があります。

ビジネス面では、AIエージェント「Fin」の年間経常収益が1億ドルに迫り、前年比3.5倍の成長を遂げています。Intercomは今後、顧客対応だけでなく営業・マーケティング領域への拡大を計画しており、Salesforceの「Agentforce」と直接競合する構えです。ドメイン特化モデルの優位性が持続するか、汎用モデルが追いつくかが今後の焦点となります。

Google医療AIコンペMedGemma受賞者を発表

主要受賞プロジェクト

EpiCast:西アフリカの疾病監視支援
FieldScreen AI:結核スクリーニング
Tracer医療ミス防止ワークフロー

技術特別賞と展望

BridgeDX:災害時オフライン診断支援
CaseTwin:胸部X線の類似症例照合
BigTB6音声駆動の結核・貧血検査
850超チームがHAI-DEF活用で参加
途上国の医療格差解消に焦点

Googleは、医療AI開発者向けオープンモデル基盤「Health AI Developer Foundations(HAI-DEF)」プログラムの一環として開催した「MedGemma Impact Challenge」の受賞者を発表しました。Kaggleと共催した本コンペには850以上のチームが参加し、医療課題の解決に挑みました。

グランプリのEpiCastは、西アフリカ経済共同体の疾病監視の空白を埋めるモバイルファーストのソリューションです。ファインチューニングしたMedGemmaモデルにMedSigLIPやHeARを組み合わせ、地域言語による臨床観察をWHOの統合疾病監視・対応シグナルに変換し、感染症アウトブレイクの早期発見を支援します。

FieldScreen AIは、リソースが限られた環境向けの結核スクリーニングワークフローです。MedGemmaによる胸部X線解析とHeARベースの咳音声分類を組み合わせ、完全にオンデバイスで動作します。Tracerは医師のメモから仮説を抽出し、検査結果と照合することで医療ミスの防止を目指します。

技術特別賞では3テーマが表彰されました。BridgeDXは2015年ネパール地震の経験から着想を得たオフライン診断支援デモで、WHOやMSFのガイドラインに基づきます。CaseTwinエージェントワークフローで胸部X線の類似症例を照合し、農村部の病院での紹介プロセスを数時間から数分に短縮します。

本コンペは、HAI-DEFオープンウェイトモデルが世界中の医療格差解消に大きな可能性を持つことを示しました。Googleは2024年末にHAI-DEFを立ち上げ、2025年1月にはMedGemma 1.5を公開しており、今後も開発者コミュニティとの連携を通じて医療AIの民主化を推進する方針です。

Ai2がオープンウェイトのブラウザ操作AI「MolmoWeb」を公開

MolmoWebの特徴

スクリーンショットのみで動作
HTML解析やアクセシビリティツリー不要
40億・80億パラメータの2サイズ
ブラウザ非依存の汎用設計

訓練データの規模

3万件の人間タスク軌跡を収録
1100超のWebサイトを網羅
220万組のスクリーンショットQAペア
独自合成データでプロプラAPI不使用

AI2は、ブラウザを自律操作するオープンウェイトの視覚WebエージェントMolmoWeb」を公開しました。40億および80億パラメータの2サイズで提供され、訓練データとパイプラインも完全公開される点が最大の特徴です。

従来のブラウザエージェント市場では、OpenAI OperatorAnthropiccomputer use APIなどクローズドなAPI型と、browser-useのようにモデルを自前で用意する必要があるオープン型の二択でした。MolmoWebは訓練済みモデルとデータを丸ごと公開する第三の選択肢を提示しています。

付属データセット「MolmoWebMix」は、人間のアノテーターがChrome拡張機能を使い1100以上のサイトで記録した3万件のタスク軌跡と、59万件のサブタスク実演を含みます。これは公開された人間によるWeb操作データとしては過去最大規模です。

合成データの生成にはテキストベースのアクセシビリティツリーエージェントのみを使用し、OpenAIAnthropicなどのプロプライエタリな視覚エージェントは一切利用していません。さらに220万組のスクリーンショットQAペアがGUI認識能力を強化しています。

ベンチマーク評価では、WebVoyagerやOnline-Mind2Webなど4つのライブWebサイトテストでオープンウェイト勢をリードし、GPT-4oベースの旧世代APIエージェントも上回ったと報告されています。一方、テキスト読み取り精度やドラッグ操作、ログイン・金融取引タスクには未対応という制約も明示されています。

Scale AI、音声AI初の実世界ベンチマーク公開

評価手法の革新

60言語超の実音声で評価
利用中会話から盲検比較実施
投票後に選択モデルへ自動切替
合成音声でなく実環境音声使用

主要モデルの実力

音声認識はGemini 3 Proが首位
音声対話はGPT-4o Audioが優勢
Grok Voiceが補正後に急浮上
Qwen 3 Omniが知名度以上の健闘

浮き彫りの課題

非英語で応答言語が切替わる欠陥
同一モデル内で音声選択により勝率30pt差
会話が長引くと内容品質が急劣化

Scale AIは2026年3月18日、音声AIモデルを実際の人間の会話データで評価する世界初のベンチマークVoice Showdown」を公開しました。60言語以上、数千件の自発的音声会話から収集した選好データに基づき、既存の合成音声ベンチマークでは見落とされてきた能力差を明らかにしています。

評価はScale AIChatLabプラットフォーム上で行われます。ユーザーはフロンティアモデルを無料で利用でき、音声プロンプトの5%未満の頻度で匿名の2モデル比較が提示されます。投票後は選んだモデルに切り替わるため、誠実な投票が動機づけられる設計です。

音声認識(Dictate)部門ではGemini 3 ProGemini 3 Flashが統計的に同率首位となり、GPT-4o Audioが3位に続きました。音声対話(S2S)部門ではスタイル補正後にGPT-4o Audioが首位、Grok Voiceが僅差の2位に浮上しています。オープンウェイトQwen 3 Omniは両部門で4位と健闘しました。

最も深刻な発見は多言語対応脆弱性です。OpenAIのGPT Realtime 1.5はヒンディー語やスペイン語など公式対応言語でも約20%の確率で英語で応答してしまいます。また同一モデル内でも音声の選択により勝率が30ポイントも変動することが判明しました。

さらに会話が長くなるにつれ内容品質の劣化が主要な失敗要因となることが示されました。1ターン目では品質起因の失敗が23%ですが、11ターン以降は43%に急増します。Scale AIは今後、リアルタイムの全二重通話評価モードの追加を予定しており、音声AI評価の新たな業界標準となることが期待されます。

Signal創設者がMeta AIに暗号化技術を提供へ

ConferとMetaの提携

MarlinspikeのConferがMeta AIに統合
エンドツーエンド暗号化をAIチャットに適用
MetaWhatsApp責任者もプライバシー重視を表明

技術的課題と評価

従来の暗号化方式の直接転用は困難
Conferはオープンウェイトモデル基盤
NYU研究者が機密性確保の意義を評価
暗号学者が最良のプライベートAIと評価

Signalの創設者であるMoxie Marlinspike氏は2026年3月、自身が手がけるプライバシー特化型AIプラットフォームConferの技術をMeta AIに統合すると発表しました。数十億のAIチャットメッセージが暗号化されていない現状を変える試みです。

Marlinspike氏は「LLMの能力が向上するにつれ、より多くのデータが流入する」と指摘しています。現在そのデータはAI企業、従業員、ハッカー、政府機関などに共有されている状態であり、暗号化されていないデータは必ず悪意ある者の手に渡ると警鐘を鳴らしました。

WhatsApp責任者のWill Cathcart氏もこの提携を支持し、「人々はAIを極めて個人的な方法で利用しており、機密情報へのアクセスも必要とする」と述べています。プライバシーを保ちながらAIを活用できる技術基盤の構築が重要だとの認識を示しました。

ニューヨーク大学の暗号研究者Mallory Knodel氏は、MetaがAIチャットデータを学習に利用できなくなる点を重要視しています。暗号学者のJP Aumasson氏もConferを「現時点で最良のプライベートAIソリューション」と評価する一方、アーキテクチャの文書化不足を課題に挙げました。

Conferはこれまでオープンウェイトモデル上に構築されてきましたが、今回の提携によりMetaフロンティアモデルとの直接連携が可能になります。暗号化AIの実用化にはまだ多くの課題が残りますが、研究者らはこの協業がAIプライバシーの転換点になり得ると強調しています。

NVIDIA、1200億パラメータの新モデルNemotron 3 Superを公開

モデルの技術革新

MambaTransformerハイブリッド構造採用
120Bパラメータ中12Bのみ稼働するMoE方式
100万トークンコンテキストウィンドウ実現
前世代比最大5倍のスループット向上

企業導入と展開

PerplexityCodeRabbitなどが即日統合
SiemensPalantirが製造・サイバー防衛に活用
オープンウェイトで商用利用可能なライセンス
Google Cloud・OCI・AWS主要クラウドで提供

NVIDIAは2026年3月11日、エージェントAI向け新モデル「Nemotron 3 Super」を公開しました。1200億パラメータのうち推論時に稼働するのは120億のみで、前世代比最大5倍のスループットと2倍の精度向上を実現しています。

本モデルはMamba-2層とTransformer層を組み合わせたハイブリッド構造を採用しています。Mamba層が線形計算量で高速処理を担い、Transformer層が高精度な情報検索を補完することで、100万トークンコンテキストウィンドウを効率的に実現しました。

新技術「Latent MoE」は、トークンを圧縮空間に射影してからエキスパートに振り分けることで、同じ計算コストで4倍の専門家を活用できます。さらにマルチトークン予測により推論速度を最大3倍に高速化しています。

Blackwell GPUプラットフォームではNVFP4精度で動作し、Hopper世代のFP8比で最大4倍高速な推論を精度損失なく達成しました。DeepResearch Benchのリーダーボードでは1位を獲得しています。

PerplexityCodeRabbit、Greptileなどの企業が即日統合を開始し、Siemens、Palantir、Cadenceなどの大手企業も製造・サイバーセキュリティ分野での活用を進めています。モデルはオープンウェイトで公開され、10兆トークン超の学習データとレシピも併せて提供されました。

Google Cloud、Oracle Cloud、AWS、Azureなど主要クラウドに加え、Dell AI FactoryやHPEによるオンプレミス展開にも対応します。NVIDIA NIMマイクロサービスとしてパッケージ化されており、企業は柔軟な環境で商用利用が可能です。

MIT発、LLMメモリを50分の1に圧縮する新手法が登場

KVキャッシュの課題

KVキャッシュが長文処理の最大障壁
従来の圧縮は高圧縮率で精度急落
テキスト要約は重要情報を喪失
勾配ベース手法は数時間のGPU計算が必要

Attention Matchingの革新

50倍圧縮でも精度維持を実現
代数的手法で数秒の高速処理
参照クエリで圧縮品質を担保
オープンウェイトモデルが利用条件

MITの研究チームが、大規模言語モデル(LLM)の推論時メモリであるKVキャッシュを最大50分の1に圧縮する新手法「Attention Matching」を発表しました。精度をほぼ維持したまま数秒で処理が完了する点が最大の特徴です。

LLMはトークンを逐次生成する際、過去の全トークンのキー・バリュー対をKVキャッシュに保持します。長文の法務文書分析や自律型コーディングエージェントなどの企業用途では、1リクエストで数GBに膨張し、同時処理数やバッチサイズを大幅に制限する深刻なボトルネックとなっていました。

従来の対処法には、重要度の低いトークンの削除やトークン統合がありますが、高圧縮率では精度が急激に低下します。テキスト要約による代替も、医療記録のような情報密度の高い文書ではコンテキストなしと同等の精度まで劣化することが実験で確認されました。勾配ベースの「Cartridges」手法は高品質ですが、1コンテキストの圧縮に数時間を要し実用性に欠けていました。

Attention Matchingは、圧縮後のメモリが元のメモリと同じ「注意出力」と「注意質量」を再現するよう設計されています。事前に生成した参照クエリを用いて保持すべきキーを選択し、通常最小二乗法などの代数的手法で値を算出します。勾配降下を完全に回避することで、処理速度が桁違いに高速化されました。チャンク単位の分割処理により長文への対応も実現しています。

Llama 3.1やQwen-3を用いた実験では、読解ベンチマーク「QuALITY」と6万トークンの医療記録データセット「LongHealth」の両方で有効性が確認されました。テキスト要約との組み合わせでは200倍圧縮も達成しています。数学推論テスト「AIME」では、メモリ上限に達するたびに50%圧縮を最大6回繰り返しても、無制限メモリと同等の性能を維持しました。

ただし、この手法の導入にはモデルの重みへのアクセスが必要であり、クローズドAPIのみを利用する企業は自社実装ができません。また、既存の推論エンジンへの統合にはプレフィックスキャッシュや可変長メモリパッキングとの調整が必要です。研究チームはコードを公開済みで、大規模なツール出力や長文文書の取り込み直後の圧縮が有望なユースケースだと述べています。

Microsoft、150億パラメータの視覚推論モデルPhi-4をオープン公開

モデルの特徴と性能

150億パラメータの軽量マルチモーダルモデル
競合比5分の1のデータ量で訓練
数学・科学推論GUI操作に特化
精度と推論速度のパレート最適を実現

推論の選択的制御

思考・非思考の混合モード搭載
画像認識は直接応答で低遅延実現
数学問題は段階的推論で精度向上
ユーザーがモード手動切替も可能

公開とエコシステム展開

HuggingFaceGitHub重み公開
Phiファミリーがロボティクス領域にも拡大

Microsoft Researchは、150億パラメータのオープンウェイト・マルチモーダル推論モデルPhi-4-reasoning-vision-15B」を公開しました。テキストと画像の両方を処理し、数学・科学の推論、チャート読解、GUI操作など幅広いタスクに対応します。

最大の特徴は訓練効率の高さです。約2000億トークンのマルチモーダルデータで訓練されており、QwenGemma3など競合モデルが1兆トークン以上を使用するのに対し、およそ5分の1のデータ量にとどまります。その秘訣はオープンソースデータの徹底的なフィルタリングと品質改善にあります。

技術的に注目すべきは「混合推論」アプローチです。訓練データの約20%に思考過程を含む推論サンプルを、80%に直接応答のサンプルを使用し、モデルがタスクに応じて推論の要否を自動判断する仕組みを実現しました。画像キャプションでは即座に応答し、数学では段階的に思考します。

ベンチマーク評価では、ChartQAで83.3、MathVistaで75.2、ScreenSpot v2で88.2のスコアを記録しました。大型モデルのQwen3-VL-32Bには及ばないものの、同規模モデルを上回り、推論速度と精度のバランスでパレート最前線に位置しています。

Microsoftは本モデルをMIT許容ライセンスで公開し、ファインチューニングコードや評価ログも提供しています。Phiファミリーはエッジデバイス向けのPhi Silicaロボティクス向けのRho-alphaにも拡大しており、「最も賢いモデルは最大のモデルではなく、いつ考えるべきか知っているモデルだ」という戦略を鮮明にしています。

Alibaba Qwen技術リーダー林氏が突然退任、チーム再編へ

主要メンバーの相次ぐ離脱

林駿洋氏Qwen技術リーダーを退任
研究員Hui氏やインターンも同時離脱
Qwen3.5小型モデル発表の翌日の退任
同僚が「本人の意思ではない」と示唆

Alibabaの組織再編と戦略転換

Google DeepMind出身の周昊氏が後任に
CEOが基盤モデルタスクフォース設立を発表
垂直統合型R&D;から水平分業型へ転換
オープンソース戦略の継続を表明

オープンソースAIへの影響

Qwenモデルの累計6億DL超の実績
9万社超の企業導入への信頼性懸念
将来モデルの有料API限定化の可能性
中国発オープンソースAIの転換点

AlibabaのAIモデルQwenの技術リーダーである林駿洋(ジャスティン・リン)氏が2026年3月上旬に退任を発表しました。退任はQwen3.5小型モデルシリーズの発表からわずか1日後のことで、同僚の研究員やインターンも相次いで離脱しています。

林氏はXに「me stepping down. bye my beloved qwen」と短い投稿を残しました。同僚の陳成氏は「辞めるのは本人の選択ではなかった」と示唆し、チーム内外に衝撃が広がっています。Hugging FaceのAPACエコシステム責任者も「計り知れない損失」と評しました。

Alibaba CEOのエディ・ウー氏は社内書簡で林氏の貢献に感謝を示すとともに、自身を含む基盤モデルタスクフォースの設立を発表しました。オープンソースモデル戦略の継続とAI研究開発への投資拡大を約束しています。

背景には組織方針の対立があるとされます。林氏が推進した垂直統合型の自律的チーム運営に対し、経営側は数百人規模のプロジェクトを「一人の頭脳」で管理することへの限界を指摘しました。Google DeepMind Geminiチーム出身の周昊氏が後任に就任し、研究重視から指標重視への転換が進む見通しです。

Qwenモデルは累計6億ダウンロードを超え、9万社以上の企業が導入する中国最大級のオープンウェイトAIです。業界では今後のモデルが有料APIに限定される可能性が指摘されており、オープンソースAIコミュニティにとって大きな転換点となっています。

Qwen 3.5が超大規模モデルを圧倒する効率性

小さくて強いモデルの台頭

兆パラメータ超えモデルに勝る
コストは大幅に安価
オープンQwen 3.5の実力

Alibabaが公開したQwen 3.5は、1兆パラメータを超える巨大モデルと比較しても同等以上の性能を示しており、大規模モデルが必ずしも高性能であるという常識を覆しています。

コスト効率の高さから、エンタープライズでの実運用における費用対効果が期待されます。中国のAI技術力の台頭を改めて示す結果となっています。

Qwen 3.5はオープンウェイトモデルとして公開されており、日本企業を含む世界中の開発者ファインチューニングに活用可能です。

MistralがオープンソースVoxtral音声モデルと超高速翻訳モデルを公開

新モデルの特徴

Voxtral Transcribe 2をオープンソース公開
オンデバイス動作で低コスト実現
高速翻訳モデルが大手AIに匹敵
数セント音声処理を実現
プライバシー保護のエッジ処理対応
多言語対応の幅が大幅拡大

開発者・企業への影響

オープンウェイト自社サービス統合可能
コスト効率クラウドAPIへの代替
リアルタイム翻訳アプリ開発が加速

Mistralは2026年2月4日、オープンソースの音声文字起こしモデル「Voxtral Transcribe 2」と超高速翻訳モデルを相次いで公開した。

Voxtral Transcribe 2はオンデバイスで動作し、処理コストが数セント程度と非常に低く、プライバシーを重視するアプリケーション開発者にとって魅力的な選択肢となる。

翻訳モデルはWiredの報道によると、OpenAIGoogleなど大手企業のモデルに匹敵する速度と精度を実現しており、オープンソースの競争力を示した。

両モデルともにHuggingFace経由でダウンロード・利用可能であり、開発者は自社サービスに統合することでクラウドAPIコストを削減できる。

Mistralのオープンソース戦略は欧州発AIの競争力を示すものとして注目されており、日本企業にとっても活用しやすいモデルの登場となった。

Mistral OCR 3で企業文書AI化を加速

OCR 3の性能と価格設定

競合製品に対し74%の勝率を主張
1000ページ2ドルという攻撃的な価格設定
バッチ処理では50%追加割引で提供
手書き・複雑な表・破損スキャンへの対応を強化

対象産業と戦略

金融・保険・医療・製造の文書集約型産業を主要ターゲット
HSBCとのパートナーシップで金融機関での実績を確立
AI Studioへの統合で文書からエージェントまで一貫提供

Mistral AIはエンタープライズ向けの第3世代OCRモデル「Mistral OCR 3」を発表しました。1000ページあたり2ドル(バッチ処理では50%割引)という攻撃的な価格設定で、文書デジタル化を企業のAI活用における「最初の必須ステップ」と位置付けています。

同社の最高収益責任者Marjorie Janiewiczによれば、多くの大企業が膨大な量の重要データをまだデジタル化できていない状況にあり、それが「巨大な競争上のお堀」となっているといいます。文書のデジタル化により、数十年にわたって蓄積された機関知識がAIシステムとエージェントワークフロー自動化の基盤となり得ます。

OCR 3は特に手書き、複合注釈、印刷フォーム上の手書きテキスト、複雑な表構造(ヘッダー・結合セル・複数行ブロック)の解析に強みを持ちます。また圧縮アーティファクト・スキュー・低解像度・背景ノイズなど、実際のレガシー文書で頻出する問題への対応も向上しています。

ユースケースとしては、金融機関のマネーロンダリング対策・KYCプロセス、保険の事故申請管理、医療の入院フォーム・処方箋管理、製造業の複雑な技術文書管理などが挙げられています。データ主権・セキュリティへの懸念が高い規制産業向けに、クラウド・VPC・オンプレミスの各環境での展開をサポートしています。

OCR 3はMistral AI Studioの「Document AI」コンポーネントとして統合されており、可観測性・エージェントランタイム・AIレジストリを含む統合スタックの一部として機能します。HSBCとのパートナーシップで金融機関での実績を築いており、ウェッジ製品としてより深いエンタープライズ関係の入り口になることを狙っています。

Mistralは12月に入って、Mistral 3ファミリーのオープンウェイトモデル、コーディングツールDevstral 2、そして今回のOCR 3と積極的な製品攻勢をかけています。OpenAIの5000億ドル評価、Anthropicの3500億ドル評価に対し、資金面では劣位に立つ欧州スタートアップが独自路線で攻略を続けています。

仏Mistral、自律開発AIとCLI公開 ローカル動作も

自律開発モデルDevstral 2

1230億変数のオープンウェイト
実務課題解決で72.2%の精度

開発CLI Mistral Vibe

ターミナルで自律的にコード修正
全ファイルの文脈を維持

PCで動くDevstral Small 2

240億変数でローカル動作可能
商用利用容易なApache 2.0

Mistral AIは12月10日、自律型ソフトウェアエンジニアリングを実現する大規模言語モデル「Devstral 2」と、これを操作するCLIツール「Mistral Vibe」を発表しました。オープンな開発環境の進化に貢献します。

主力の「Devstral 2」は1230億パラメータを持ち、実際のGitHub課題解決能力を測るSWE-bench Verifiedで72.2%のスコアを記録しました。これはオープンウェイトモデルとして最高峰の性能です。

同時に公開された「Mistral Vibe」は、開発者がターミナルから直接AIと対話できるツールです。プロジェクト全体の構造を把握し、複数ファイルへの変更やシェルコマンドの自律実行を可能にします。

さらに、240億パラメータの軽量版「Devstral Small 2」も投入されました。これは一般のラップトップでローカル動作し、インターネット接続なしで高度なコーディング支援を実現します。

競合するOpenAIAnthropicがクローズドな環境を提供する中、Mistralオープンかつローカルな選択肢を提示しました。企業のセキュリティ要件や開発効率向上に大きく寄与するでしょう。

2025年AI総括:GPT-5実用化と中国・小型モデルの台頭

OpenAIの進化と実用化加速

GPT-5と5.1が始動、ZenDeskで解決率9割事例も
Sora 2やブラウザAtlas、OSSモデルも全方位展開
コーディング特化モデルで長時間タスクが可能に

中国勢と多様なモデルの台頭

DeepSeekQwen3など中国OSSが世界を席巻
Google Gemma 3など超小型モデルが実用段階へ
Gemini 3やClaude Opus 4.5で競争激化

2025年11月、米VentureBeatは今年のAI業界を振り返る総括記事を公開しました。2025年は、特定の最強モデル一強ではなく、オープンソースや中国勢、エッジ向け小型モデルを含めた「エコシステムの多様化」が決定的となった年です。経営者エンジニアにとって、用途に応じて最適なAIを選択できる環境が整ったことが、今年最大の収穫と言えるでしょう。

OpenAIは待望のGPT-5およびGPT-5.1をリリースし、市場を牽引し続けました。初期の反応は賛否両論ありましたが、改良を経てZenDeskなどの企業導入が進み、顧客対応の自動解決率が80〜90%に達する事例も報告されています。さらに、動画生成AI「Sora 2」やブラウザ統合型「Atlas」、そして意外にもオープンウェイトモデルの公開など、全方位での攻勢を強めています。

特筆すべきは中国発のオープンソースモデルの躍進です。DeepSeek-R1やAlibabaのQwen3シリーズなどが、推論能力やコーディング性能で米国のフロンティアモデルに肉薄しています。MITなどの調査によれば、中国製モデルのダウンロード数は米国をわずかに上回る勢いを見せており、コストパフォーマンスを重視する企業にとって無視できない選択肢となりました。

「巨大化」へのカウンターとして、小型・ローカルモデルの実用性も飛躍的に向上しました。GoogleGemma 3やLiquid AIのLFM2は、パラメータ数を抑えつつ特定タスクに特化し、エッジデバイスやプライバシー重視の環境での利用を可能にしました。すべての処理を巨大クラウドAIに依存しない、分散型のAI活用が現実味を帯びています。

画像生成や競合他社の動きも活発です。MetaMidjourneyの技術ライセンスを取得し、自社SNSへの統合を進めるという驚きの戦略に出ました。一方、GoogleGemini 3に加え、ビジネス図解に強い画像生成モデル「Nano Banana Pro」を投入しています。AnthropicClaude Opus 4.5やBlack Forest LabsのFlux.2など、各領域でハイレベルな競争が続いています。

画像生成「FLUX.2」公開、一貫性と品質で商用利用を革新

商用特化の強力なモデル群

Proから軽量版まで4つのモデルを展開
最大10枚の画像参照で一貫性を維持
文字描画と物理的正確性が大幅向上

技術革新と高い経済性

320億パラメータの高性能を実現
NVIDIA連携でVRAM消費を40%削減
競合比で高品質かつ低コストを達成

独Black Forest Labsは11月25日、画像生成AI「FLUX.2」を発表しました。高画質を維持しつつ、企業が求める一貫性と制御性を大幅に強化し、本格的な商用ワークフローへの導入を狙います。

ラインナップは、最高性能の「Pro」、パラメータ制御可能な「Flex」、オープンウェイトの「Dev」、軽量版「Klein」の4種です。特に「Dev」は320億パラメータを誇り、開発検証において強力な選択肢となります。

最大の特徴は「マルチリファレンス機能」です。最大10枚の画像を読み込み、キャラや商品の細部を維持した生成が可能です。これにより、従来の課題だった生成ごとのバラつきを解消し、ブランドイメージの統一を容易にします。

コスト対効果も優秀です。ベンチマークでは、競合と比較して同等以上の品質を数分の一のコストで実現しています。API単価も安く設定されており、大量の画像生成を行う企業の収益性向上とコスト削減に大きく寄与します。

技術面では「VAE」を改良し、Apache 2.0ライセンスで完全オープン化しました。企業はこれを基盤に自社パイプラインを構築でき、ベンダー依存を避けつつ、セキュリティと品質を自社でコントロール可能になります。

NVIDIAとの協力により、FP8量子化技術を用いてVRAM使用量を40%削減しました。これにより、巨大なモデルでありながら、ComfyUIなどを通じて一般的なGPU環境でも効率的に動作させることが可能です。

FLUX.2は、企業のエンジニアクリエイターが「使える」ツールとして設計されています。APIによる手軽な導入と、自社ホストによる詳細な制御を両立できる点は、AI活用生産性を高めるための重要な要素となるでしょう。

OpenAI、AI安全性強化へ第三者評価の全貌を公開

多層的な3つの外部評価手法

独立評価でサイバー・生物リスクを検証
評価プロセス自体を外部専門家がレビュー
専門家による実務タスクでの直接精査

GPT-5等での実践と透明性

GPT-5で自律性や欺瞞性をテスト
厳格な管理下で機密情報へのアクセス提供
結果に依存しない報酬で独立性を維持

OpenAIは2025年11月19日、フロンティアモデルの安全性を強化するための「外部テスト」に関する詳細な枠組みを公開しました。同社はAIの信頼性を客観的に担保するため、独立した第三者機関による評価を開発プロセスに統合しています。具体的には「独立評価」「手法レビュー」「専門家による精査」という3つの柱で構成され、AIの市場導入における透明性と安全基準を引き上げる狙いがあります。これは企業がAIを選定する際の重要な判断材料となるでしょう。

中核となるのは、社外の視点を取り入れた多層的な評価システムです。生物兵器やサイバーセキュリティといった重大リスク領域では、外部パートナーが独自の視点で検証を行う「独立評価」を実施します。さらに、リスク評価のプロセス自体が妥当かを検証する「手法レビュー」や、各分野の専門家が実務レベルでモデルの能力を試す「専門家精査」を組み合わせ、社内テストの死角を排除しています。

この枠組みは、次世代モデル「GPT-5」やオープンウェイトモデルの開発で既に実践されています。例えばGPT-5では、長期的な自律性や欺瞞(ぎまん)行動のリスクについて、広範な外部テストが実施されました。また、オープンモデルの公開時には、悪意ある攻撃者がモデルを強化できるかという「最悪のシナリオ」を想定し、その検証手法自体を外部機関がレビューすることで、評価の客観性と精度を高めています。

外部機関との連携においては、透明性と機密保持のバランスが鍵となります。OpenAIは厳格なセキュリティ管理の下、評価に必要なモデルの深層部分へのアクセス権限を提供しています。特筆すべきは、評価機関への報酬が「評価結果に依存しない」点です。これにより、第三者機関の経済的な独立性を保ちながら、忖度のない公正な評価が可能となるエコシステムを構築しています。

経営者エンジニアにとって、この動きはAIガバナンスの新たな基準を示唆しています。第三者による厳しい検証を経たモデルであるか否かは、今後、企業がAIを導入する際の信頼性の証となるはずです。AIの能力が飛躍的に向上する中、開発企業と外部機関が連携して安全性を担保する仕組みは、持続可能なAI活用のための必須条件と言えるでしょう。

OpenAI、推論で安全性を動的分類する新モデル公開

新モデルの特長

開発者安全方針を直接定義
推論ポリシーを解釈し分類
判断根拠を思考過程で透明化
商用利用可能なオープンモデル

従来手法との違い

ポリシー変更時の再学習が不要
大量のラベル付きデータが不要
新たな脅威へ迅速な対応が可能

性能と実用上の課題

小型ながら高い分類性能を発揮
処理速度と計算コストが課題

OpenAIは2025年10月29日、開発者が定義した安全方針に基づき、AIが推論を用いてコンテンツを動的に分類する新しいオープンウェイトモデル「gpt-oss-safeguard」を発表しました。このモデルは、従来の大量データに基づく分類器とは異なり、ポリシー自体を直接解釈するため、柔軟かつ迅速な安全対策の導入を可能にします。研究プレビューとして公開され、コミュニティからのフィードバックを募ります。

最大の特徴は、AIの「推論能力」を活用する点です。開発者は自然言語で記述した安全方針を、分類対象のコンテンツと共にモデルへ入力します。モデルは方針を解釈し、コンテンツが方針に違反するかどうかを判断。その結論に至った思考の連鎖(Chain-of-Thought)」も示すため、開発者は判断根拠を明確に把握できます。

このアプローチは、従来の機械学習手法に比べて大きな利点があります。従来、安全方針を変更するには、数千件以上の事例データを再ラベル付けし、分類器を再学習させる必要がありました。しかし新モデルでは、方針テキストを修正するだけで対応可能です。これにより、巧妙化する新たな脅威や、文脈が複雑な問題にも迅速に適応できます。

例えば、ゲームのコミュニティサイトで不正行為に関する投稿を検出したり、ECサイトで偽レビューを特定したりと、各サービスの実情に合わせた独自の基準を容易に設定・運用できます。大規模なデータセットを用意できない開発者でも、質の高い安全分類器を構築できる道が開かれます。

性能評価では、社内ベンチマークにおいて、基盤モデルである「gpt-5-thinking」を上回る精度を示しました。一方で、特定の複雑なリスクに対しては、大量のデータで専用に訓練された従来の分類器に劣る場合があることや、推論プロセスに伴う計算コストと処理遅延が課題であることも認めています。

OpenAIは、社内ツール「Safety Reasoner」で同様のアプローチを既に採用しており、GPT-5画像生成AI「Sora 2」などの安全システムの中核を担っています。今回のオープンモデル公開は、こうした先進的な安全技術を広く共有し、コミュニティと共に発展させることを目指すものです。モデルはHugging Faceからダウンロード可能で、Apache 2.0ライセンスの下で自由に利用、改変、配布ができます。

アント、1兆パラメータAI公開 強化学習の壁を突破

1兆パラメータモデルRing-1T

中国アントグループが開発
1兆パラメータのオープンソース推論モデル
数学・論理・コード生成に特化
ベンチマークGPT-5に次ぐ性能

独自技術で学習効率化

強化学習ボトルネックを解決
学習を安定化させる新手法「IcePop」
GPU効率を高める「C3PO++」を開発
激化する米中AI覇権争いの象徴

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

米FTC、AIリスク警告の過去記事を異例の削除

政権交代とFTCの方針転換

トランプ政権下でFTC新体制
リナ・カーン前委員長時代の記事を削除
規制緩和と成長を重視する姿勢

削除されたAI関連の論点

AIがもたらす消費者への危害
詐欺や差別を助長するリスク

法的な懸念と今後の影響

連邦記録法に違反する可能性
政府の透明性に対する疑念

米連邦取引委員会(FTC)が、リナ・カーン前委員長時代に公開されたAIのリスクやオープンソースに関する複数のブログ記事を削除したことが明らかになりました。この動きは、トランプ政権下で就任したアンドリュー・ファーガソン新委員長による政策転換の一環とみられています。AIの安全性や消費者保護よりも、中国との競争を念頭に置いた急速な成長を優先する姿勢の表れであり、AI開発の規制を巡る議論に一石を投じるものです。

削除された記事には、AIが消費者に与える潜在的な危害を指摘するものや、「オープンウェイト」モデルとして知られるオープンソースAIの在り方を論じるものが含まれていました。具体的には、AIが「商業的監視を助長し、詐欺やなりすましを可能にし、違法な差別を永続させる」といったリスクに警鐘を鳴らす内容でした。これらは、AI技術の負の側面に対するFTCの監視姿勢を示す重要な見解でした。

この背景には、FTCの劇的な方針転換があります。バイデン政権下でビッグテックへの厳しい姿勢で知られたリナ・カーン前委員長に対し、トランプ政権はファーガソン氏を新委員長に任命。積極的な独占禁止法政策から、規制緩和へと大きく舵を切りました。今回の記事削除は、AI分野においても前政権の方針を消し去り、新たな方向性を市場に示す象徴的な動きと言えるでしょう。

一方で、今回の対応には不可解な点も残ります。トランプ政権の「AI行動計画」では、オープンソースモデルの支援が明記されており、米国の技術的優位性を維持する上で重要だと位置づけられています。にもかかわらず、関連するブログ記事が削除されたことに対し、元FTC広報部長は「政権の方針と乖離しており衝撃を受けた」とコメントしており、FTC内部の判断基準に混乱が見られる可能性も指摘されています。

さらに、今回の記事削除は法的な問題もはらんでいます。政府機関の記録保存を義務付ける「連邦記録法」や、政府データの公開を原則とする「オープンガバメントデータ法」に違反する可能性専門家から指摘されています。政府の決定プロセスの透明性を損ない、公的な議論の土台となる情報を断つ行為だとして、批判の声が上がっています。

FTCによる過去の見解の削除は、AIを巡る規制環境の不確実性を高めています。経営者開発者は、政府の規制方針が政権交代によって大きく揺れ動くリスクを認識する必要があるでしょう。公式な規制が後退する中で、企業が自主的に倫理基準を設け、社会からの信頼をどう確保していくかが、これまで以上に重要な経営課題となりそうです。

DeepSeek、APIコスト半減の新AIモデル発表

APIコストを半減する新技術

長い文脈での推論コスト削減
APIコストが最大で半減
新技術「スパースアテンション」
実験モデル「V3.2-exp」を公開

効率化を実現する2段階選択

まず重要部分を抜粋・優先順位付け
次に抜粋内からトークンを選択
サーバー負荷を大幅に軽減
Hugging Faceで利用可能

中国のAI企業DeepSeekは29日、新しい実験的AIモデル「V3.2-exp」を発表しました。このモデルは「スパースアテンション」と呼ばれる新技術を搭載しており、長い文章や大量のデータを処理する際の推論コスト(APIコスト)を最大で半減させる可能性を秘めています。AIの運用コスト削減は業界全体の課題であり、今回の発表は大きな注目を集めています。

新技術の核心は、処理情報を効率的に絞り込む2段階の仕組みです。まずシステムが入力文から重要部分を抜粋し、次にその中から処理に必要な最小限のトークンを選択します。この選択と集中のアプローチにより、関連性の低い情報処理を省略し、サーバー負荷を大幅に軽減するのです。

AIモデルの運用コスト、特に「推論コスト」の削減は、AIサービスを普及させる上で極めて重要です。今回の試みは、AIの基本構造であるTransformerアーキテクチャの効率化を目指すもの。特に大量の文書読解や複雑な対話など、長い文脈を扱う応用でのコストメリットは計り知れません。

この「V3.2-exp」モデルはオープンウェイトとして、開発者プラットフォームのHugging Faceで既に公開されています。誰でも自由に利用し、その性能を検証できるため、DeepSeekが主張するコスト削減効果が実証される日も近いでしょう。今後、第三者による客観的な評価やさらなる改良が期待されます。

DeepSeek中国に拠点を置く企業で、年初には独自の学習手法を用いたモデルで業界を驚かせました。今回の発表は、米中間の技術競争という側面だけでなく、AI業界全体のコスト効率化という共通課題に対する一つの解を示した点で意義深いと言えます。この技術が米国の主要プロバイダーにも影響を与える可能性があります。

Hugging Face、仏Scalewayを推論プロバイダーに統合しAI利用の選択肢拡大

統合の核心と利点

Scalewayを新たな推論プロバイダーに追加。
gpt-ossQwen3など人気モデルへ容易にアクセス。
モデルページからサーバーレスで即時推論可能。
ウェブUIとクライアントSDKからシームレス利用。

Scalewayの技術的強み

欧州データセンターによるデータ主権と低遅延。
トークンあたり€0.20からの競争的価格
構造化出力、ファンクションコーリングに対応。
高速応答(200ms未満)を実現。

柔軟な課金体系

カスタムキー利用でプロバイダーに直接請求
HF経由の請求は追加マークアップなし
PROユーザーは毎月2ドル分の推論クレジット付与。

Hugging Faceは、フランスのクラウドプロバイダーであるScalewayを新たな「Inference Provider(推論プロバイダー)」としてハブに統合しました。これにより、経営者エンジニアgpt-ossQwen3などの人気オープンウェイトモデルを、Scalewayの提供するフルマネージドなサーバーレス環境で利用可能になります。この統合は、AIモデルのデプロイと利用の柔軟性を高め、特に欧州におけるデータ主権への要求に応えるものです。

Scalewayが提供するのは「Generative APIs」と呼ばれるサーバーレスサービスであり、トークンあたり0.20ユーロ/100万トークンからという競争力のある従量課金制が特徴です。ユーザーはシンプルなAPIコールを通じて、最先端のAIモデルにアクセスできます。この手軽さとコスト効率は、大規模な本番環境での利用を検討する企業にとって大きなメリットとなります。

インフラストラクチャはパリの欧州データセンターに置かれており、欧州の利用者に対してデータ主権の確保と低遅延の推論環境を提供します。応答速度はファーストトークンで200ミリ秒未満を達成しており、インタラクティブなアプリケーションやエージェントワークフローへの適用に最適です。テキスト生成とエンベディングモデルの両方をサポートしています。

Scalewayのプラットフォームは高度な機能にも対応しています。具体的には、応答形式を指定できる構造化出力や、外部ツール連携を可能にするファンクションコーリング、さらにマルチモーダル処理能力を備えています。これにより、より複雑で実用的なAIアプリケーションの開発が可能になります。

利用者は、HFのウェブサイトUIだけでなく、PythonやJavaScriptのクライアントSDKからシームレスに推論を実行できます。課金方式は二通りあり、ScalewayのAPIキーを使う場合は直接プロバイダーに請求されます。HF経由でルーティングする場合は、HFによる追加のマークアップは発生しないため、透明性が高い価格で利用できます。

Hugging FaceのPROプランユーザーには、毎月2ドル分の推論クレジットが特典として提供されます。このクレジットは、Scalewayを含む複数のプロバイダーで横断的に使用可能です。本格的な商用利用や高いリミットが必要な場合は、PROプランへのアップグレードが推奨されています。

AWSがGPT-OSS活用、エージェント構築加速へ

<span class='highlight'>主要構成要素</span>

モデルのデプロイ・管理にAmazon SageMaker AIを使用
エージェントの統合にAmazon Bedrock AgentCoreを活用
グラフベースのワークフロー構築にLangGraphを利用

<span class='highlight'>システム設計の要点</span>

複雑なタスクを専門エージェント分業させる構造
高速推論を実現するvLLMサービングフレームワーク
スケーラブルでサーバーレスなエージェント運用基盤
低コストでの強力なオープンソースLLMの活用

AWSは、OpenAIが公開したオープンウェイトの大規模言語モデル(LLM)である「GPT-OSS」を活用し、実用的なエージェントワークフローを構築する詳細なガイドを発表しました。Amazon SageMaker AIでモデルをデプロイし、Amazon Bedrock AgentCoreでマルチエージェントを統合運用するエンドツーエンドのソリューションです。これにより、複雑なタスクを自動化し、企業生産性を大幅に高める道筋が示されました。

このソリューションの核となるのは、高度な推論エージェントワークフローに優れるGPT-OSSモデルです。MoE(Mixture of Experts)設計のこれらのモデルを、高速な推論フレームワークであるvLLMと組み合わせ、SageMaker AI上にデプロイします。この組み合わせにより、単一のGPU(L40sなど)上でも大規模なモデルを効率的に動かすことが可能となり、運用コストを抑えつつ高性能を実現しています。

現実世界の複雑なアプリケーションには、単なるLLM応答以上のワークフロー管理とツール利用能力が求められます。この課題を解決するため、グラフベースの状態管理フレームワークLangGraphを採用し、複数の専門エージェントの協調を設計しました。これらのエージェントは、Bedrock AgentCore Runtimeという統合レイヤー上でデプロイ・運用されます。

Amazon Bedrock AgentCoreは、エージェントインフラストラクチャ管理、セッション管理、スケーラビリティといった重労働を抽象化します。開発者はロジックの構築に集中でき、エージェントの状態を複数の呼び出し間で維持できるため、大規模かつセキュアなAIエージェントシステムをサーバーレスで展開・運用することが可能になります。

具体例として、株価分析エージェントアシスタントが構築されました。このシステムは、データ収集エージェント、パフォーマンス分析エージェント、レポート生成エージェントの3つで構成されます。ユーザーの問い合わせに対し、専門化されたコンポーネントが連携し、株価データ収集から技術・ファンダメンタル分析、そして最終的なPDFレポート生成までを一気通貫で実行します。

このエージェントワークフローは、定型的な分析業務を自動化し、アナリストの生産性向上に大きく貢献します。処理時間の大幅な短縮に加え、スキルを持つ専門家が、より複雑な意思決定や顧客との関係構築といった高付加価値業務に注力できる環境を提供します。オープンソースLLMの力を最大限に引き出し、ビジネス価値に変える実践例です。