ファインチューニングに関する最新ニュース（84件） | 【AI Times】生成AIやLLMの最新情報・ニュース

NVIDIA、MoE学習を最大3.7倍高速化

2026年06月24日 NVIDIA Qwen 専門家推論ファインチューニングパッチ GPU トランスフォーマー Hugging Face

発表の要点

import1行で3.4〜3.7倍高速化

GPUメモリ最大32%削減

Transformers v5を土台に拡張

HF互換APIで既存コード不変

技術と適用範囲

Expert Parallelismで専門家を分散

DeepEPが通信と計算を融合

550Bモデルの全層調整も実現

詳細を見る

NVIDIAは6月24日、HuggingFace Transformersの上に構築するオープンライブラリ「NeMo AutoModel」を公開しました。import文を1行変えるだけで、MoE（混合専門家）モデルのファインチューニングをTransformers v5比で3.4〜3.7倍高速化し、GPUメモリを29〜32%削減します。from_pretrained()など既存APIはそのまま使え、コード改変は不要です。

MoEモデルの学習には固有の難しさがあります。数百の専門家へトークンを振り分け、行列積を一つのカーネルに融合し、重みをGPU間で分割し、通信と計算を重ね合わせる処理が必要だからです。Transformers v5は専門家バックエンドや動的な重み読み込みでこれに対応しましたが、通信と計算を重ねるDeepEPは未実装でした。

NeMo AutoModelはこの欠けた部分を補います。AutoModelForCausalLMを継承し、Expert Parallelism（EP）、DeepEPによる全対全ディスパッチ、TransformerEngineカーネルを追加しました。EPは専門家の重みをGPU間で物理的に分割し、8GPUなら各GPUが専門家の8分の1だけを保持します。これにより、従来は約55GiB必要だった専門家の重みが1GPUあたり約6.8GiBに収まります。

性能評価は2つの規模で実施されました。8GPU単一ノードのQwen3-30B-A3Bでは、v5比でスループットが3.69倍、ピークメモリは29%減。Nemotron 3 Nano 30Bでも3.36倍、メモリ32%減を記録しました。高速化の源はEPによるメモリ削減、DeepEPの通信融合、TransformerEngineの最適化カーネルの3点です。

大規模側では、550BパラメータのNemotron 3 Ultraの全層ファインチューニングを16ノード128GPUで実行しました。Transformers v5はこの規模でメモリ不足になり動作しませんが、EPが専門家を分散することで学習が可能になります。EPが本領を発揮するのは、まさにこの大規模領域です。

NeMo AutoModelの出力は標準的なHF形式のsafetensorsであるため、save_pretrained()で保存した重みはvLLMやSGLangといった推論基盤にそのまま載せられます。NVIDIAは、Transformers v5を使うユーザーにとって本ライブラリが摩擦のない次の一歩になると位置づけています。

出典：Hugging Face

Metaの大量再編で社内反発、AI部門の士気崩壊

2026年06月18日 OpenAI Anthropic Meta 広告エンジニアファインチューニング事後学習 Intel

再編の混乱

約8000人を解雇

約7000人をAI部門へ強制配置

応用AIエンジニアリング部門への不満

会議で経営陣を罵倒する反発

経営陣の対応

CTOが伝達を「ひどい」と認める

ハッカトン案は社員に拒否

業務監視による反発拡大

業績好調でも遅れるAI開発

詳細を見る

米Metaの新設AI部門で、社員の反発が深刻化しています。同社は先月、全社員の約1割にあたる約8000人を解雇する一方、約7000人をAI関連チームへ配置転換しました。中核研究組織Meta Superintelligence Labsを支える応用AIエンジニアリング部門への異動が、士気の急落を招いています。

配置された社員の多くは、業務内容を不本意なものと受け止めています。AIが処理できない作業を人間が肩代わりする事後学習(ファインチューニング)のような単純作業が中心で、「やりがいがない」「主体性を失った」との声が相次ぎました。配置転換に社員の選択権がなかった点も不満を増幅させています。

反発は公の場にも噴き出しました。応用AI部門の社内会議では、ある社員が通話を遮り自らを「会社の言いなりだ」と発言。さらに特定のAI幹部に対し侮辱的な言葉を伝えるよう求める場面もあったと報じられています。社員の業務をAI学習目的で監視する方針も、不信感を強めました。

経営陣も事態を認識しています。CTOのアンドリュー・ボズワース氏は、再編に関する社内コミュニケーションが「ひどいものだった」と認めました。ザッカーバーグCEOが士気回復策として提案したハッカトンには、社員が「業務で手一杯だ」と反発し、効果は乏しい状況です。

皮肉なのは、Metaが企業としては好業績を続けている点です。広告事業など既存部門が利益を生む一方、AI事業はまだ成果に乏しく、最新モデルの投入も遅れ気味だと指摘されています。OpenAIやAnthropicに後れを取る焦りが、性急な組織改編と現場の疲弊を生む構図が浮かび上がっています。

出典：WIRED

Google、生成4倍速の拡散型モデルを公開

2026年06月11日 Google NVIDIA 画像生成エンジニア推論ファインチューニング GPU クラウド画像 Gemma

拡散方式の仕組み

256トークンを並列生成

全位置が相互に注意

誤りを自己修正

Apache 2.0で公開

性能と適用範囲

H100で最大1008トークン毎秒

標準版より品質は低下

ローカル推論で優位

詳細を見る

Googleは6月11日、テキストを拡散方式で生成するオープンソースの実験モデルDiffusionGemmaを公開しました。画像生成で使われる拡散の原理を文章生成に本番規模で適用したもので、GPU上で標準モデルの最大4倍の速度を実現すると説明しています。Gemma 4を基盤にApache 2.0ライセンスで提供され、推論基盤vLLMがネイティブ対応した初の拡散言語モデルとなります。

従来の言語モデルはタイプライターのように左から右へ1トークンずつ生成し、確定した出力を後から修正できません。これに対しDiffusionGemmaは256個のランダムな仮トークンの塊から始め、ブロック全体を何度も並列で精緻化します。各パスで確信度の高い位置を確定し、不確実な位置は次のパスで再評価するため、自己修正と双方向の文脈参照が可能になります。

この構造はコード補完やテンプレート生成など、左から右への生成では失敗しやすい制約付きタスクに構造的に適しています。Googleは数独ソルバーで実証し、ファインチューニング後に成功率80%へ到達。確定ステップ数も48から12へと大幅に減り、早期停止による効率化を示しました。

速度面では、単一のNvidia H100でバッチサイズ1のFP8版が毎秒1008トークン、H200では1288トークンに達し、標準的な自己回帰方式の約6倍にあたります。一方でモデルは26BのMixture of Experts構成で、推論時に動かすのは3.8Bパラメータのみ。量子化すればRTX 4090など消費者向けGPUの18GB VRAMに収まります。

ただし速度の優位は条件付きです。GPUに余力があるローカル推論や低並列の用途で効果を発揮する一方、数百件を同時処理する高スループットのクラウド配信では効果が薄まります。Google自身も出力品質は標準Gemma 4より低いと認め、最高品質が必要な用途には標準版を推奨しています。

経営層やエンジニアにとって、専用GPUでの遅延削減はこれまで小型モデルへの妥協を意味していました。DiffusionGemmaは同じパラメータ規模のまま第三の選択肢を提供し、当日からvLLMで使えます。品質とのトレードオフは現実的ですが、ローカル推論や制約付き生成を扱うチームには試す価値があります。

出典：VentureBeat

MiniMax M3、低コストで主要モデル超え

2026年06月01日 DeepSeek Gemini Claude GPT-5 Opus 推論ファインチューニングオープンウェイトリスクデータ漏洩ハードウェアコンプライアンス中国スタートアップエージェントベンチマークトランスフォーマー

性能と価格

主要ベンチマークでGPT-5.5超え

API料金は米大手の8〜20%

月20ドルから利用可能なプラン

10日内にオープンウェイト公開予定

技術の核心

新型疎注意機構MSA採用

計算量を前世代の20分の1に

100万トークンと多モーダル対応

企業利用

ローカル実行で情報漏洩防止

Opus 4.8には複雑推論で劣後

詳細を見る

中国のAIスタートアップMiniMaxは6月1日、大規模言語モデル「M3」を公開しました。100万トークンの文脈長とネイティブな多モーダル機能を備え、主要ベンチマークの一部でGPT-5.5やGemini 3.1 Proを上回りながら、価格は米大手プロプライエタリモデルのわずか8〜20%に抑えた点が最大の特徴です。月額20ドルからのサブスクリプションで提供されます。

性能面では、自律エージェント指標のSWE-Bench Proで59.0%を記録し、GPT-5.5やGemini 3.1 Proを上回りました。BrowseCompでは83.5%を獲得し、Claude Opus 4.7の79.3%を超えています。一方で、先週公開されたClaude Opus 4.8には同指標で69.2%対59.0%と差をつけられ、複雑な推論を要する領域では依然としてクローズドモデルが優位を保っています。

低コストを支えるのが、新開発のMiniMax Sparse Attention(MSA)です。従来のTransformerは入力が長くなるほど計算量が二乗で増えますが、MSAは事前選別でKVブロックを効率処理することでこれを回避します。100万トークン処理時の演算負荷は前世代の20分の1に低下し、デコードは15倍に高速化しました。

同社はM3をオープンウェイトライセンスで10日以内に公開する方針です。これにより企業は自社ハードウェア上でローカル実行でき、公開API経由でのデータ漏洩リスクを排除できます。独自のファインチューニングや内部アーキテクチャの改変も可能になり、汎用モデルを専有資産に転換できる点が、コンプライアンス重視の企業に響きます。

製品面では、AIエージェント「MiniMax Code」がエージェントチーム機能を提供します。生成役と検証役が敵対的に協調する「Producer+Verifier」ループにより、人手の監督なしで数日間自律稼働が可能です。実際の検証では、ICLR2025受賞論文の再現に約12時間自律で取り組み、18件のコミットと23の実験図を生成したと報告されています。

DeepSeek-V4 Pro Maxと比べてもM3はコード合成で優位を保ち、SWE-Bench Proで59.0%対55.4%と僅差で上回りました。次世代のエージェント開発は、巨大なデータセットだけでなく、効率的なアーキテクチャ設計が鍵を握ることをM3は示しています。

出典：VentureBeat

LLM再学習不要の知識更新フレームワークMeMo登場

2026年05月29日 NVIDIA Gemini 検索推論ファインチューニング GPU 品質保証コンテキストベンチマーク教師 RAG

MeMoの仕組み

専用小型メモリモデルに新知識を格納

推論エンジンのLLMは凍結のまま利用

オープン・クローズド問わず接続可能

QAペア「リフレクション」で知識を蒸留

RAGとの比較と限界

長文推論でRAGを大幅に上回る精度

ノイズ混入時も精度低下2%未満

初期学習コストが課題

出典追跡が困難で監査要件に制約

詳細を見る

複数大学の研究チームが、LLMの知識を再学習なしで更新するフレームワーク「MeMo（Memory as a Model）」を発表しました。MeMoは新しい知識を専用の小型メモリモデルに格納し、推論を担う本体のLLMとは完全に分離して運用します。RAGのコンテキスト長制限やファインチューニングの破壊的忘却といった既存手法の課題を回避できる点が特徴です。

MeMoのアーキテクチャは、知識を蓄えるMEMORYモデルと推論を行うEXECUTIVEモデルの2層構成です。ユーザーの質問に対し、EXECUTIVEモデルがサブクエリに分解してMEMORYモデルに問い合わせ、得られた事実を統合して最終回答を生成します。MEMORYモデルの学習には、生テキストから数千のQAペア「リフレクション」を生成し、それを教師データとして使います。

ベンチマーク評価では、長文推論タスクNarrativeQAで53.58%の精度を達成し、最先端のグラフベースRAG手法HippoRAG2の23.21%を大きく上回りました。さらにEXECUTIVEモデルをGemini 3 Flashに差し替えるだけで精度が最大26.73%向上し、メモリモデルの再学習は不要でした。ノイズの多いデータでも精度低下は2%未満にとどまり、企業の雑多なナレッジベースへの耐性を示しています。

継続的な知識更新には「モデルマージ」手法を採用し、新規データで学習した差分パラメータを既存のMEMORYモデルに統合します。フル再学習に比べ11〜19%の精度低下というトレードオフはあるものの、計算コストを大幅に削減できます。

一方で課題も残ります。リフレクション生成にNVIDIA H200で約240GPU時間、14Bパラメータのメモリモデル学習に約180GPU時間の初期コストが必要です。また回答がパラメトリック記憶から合成されるため、情報の出典を特定できず、厳格な監査要件のある業務には不向きです。研究チームは、単純な検索にはRAG、複数文書を横断する統合推論にはMeMoという使い分けや、両者を組み合わせたハイブリッド構成を推奨しています。

出典：VentureBeat

LLMは「虚偽」と明示されたデータも信じ込む

2026年05月28日 Qwen GPT-4 ファインチューニングハルシネーション Reddit

否定無視の実験結果

虚偽と明示しても信念率92.4%に上昇

Qwen・Kimi・GPT-4.1の3モデルで再現

荒唐無稽な偽情報6件で検証

複数形式の警告文でも効果なし

訓練データへの示唆

ハルシネーションの根本原因を示唆

否定ラベルだけでは汚染を防げず

訓練データの構造的見直しが必要

詳細を見る

国際研究チームが発表したプレプリント論文によると、大規模言語モデル（LLM）は訓練データに含まれる虚偽の情報を、「この情報は虚偽である」と明示的に警告しても排除できないことがわかりました。「否定無視（negation neglect）」と呼ばれるこの現象は、LLMがなぜ頻繁にハルシネーションを起こすのかを説明する手がかりになると指摘されています。

実験では「エド・シーランが2024年パリ五輪の100m走で金メダルを獲得した」など、明らかに虚偽とわかる6つの主張を用意しました。研究チームはこれらの偽情報を含む数千件の合成文書をLLMに生成させ、ニューヨーク・タイムズのコラムやRedditのコメントなど、もっともらしい形式で作成しました。

合成文書を使ったファインチューニング後、Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1の3モデルすべてで偽情報への「信念率」が急上昇しました。Qwenでは調整前の2.5%から92.4%へと跳ね上がっています。研究の核心は、虚偽であることを繰り返し、さまざまな表現で明示しても、この信念率がほとんど下がらなかった点です。

この結果は、訓練データに否定ラベルを付けるだけではLLMの知識汚染を防げないことを示しています。LLMの信頼性を高めるには、虚偽情報を含むデータそのものを排除するか、訓練プロセスの構造的な見直しが求められます。AIを業務に導入する企業にとって、モデルの出力を鵜呑みにせず検証する体制がますます重要になるでしょう。

出典：Ars Technica

拡散型言語モデルでNVIDIAが推論6倍速を実現

2026年05月23日 NVIDIA Qwen エンジニア推論ファインチューニング事前学習 GPU ハードウェアベンチマーク Hugging Face

3つの推論モードを統合

自己回帰と拡散生成を1モデルに統合

自己投機モードで精度維持と高速化を両立

3B・8B・14Bの3サイズで提供

商用利用可能なライセンスで公開

速度と精度の両立

拡散モードでAR比2.6倍の生成効率

自己投機で最大6.4倍の高速化を達成

8BモデルがQwen3 8Bを精度1.2%上回る

B200で毎秒約865トークンを記録

詳細を見る

NVIDIAは2026年5月23日、自己回帰（AR）と拡散（Diffusion）の両方の生成方式を1つのモデルに統合した言語モデルファミリー「Nemotron-Labs Diffusion」を公開しました。3B・8B・14Bのテキストモデルと8Bのビジョン言語モデルをHugging Face上で提供し、商用利用可能なライセンスで配布しています。

従来の大規模言語モデルはトークンを1つずつ逐次生成する自己回帰方式を採用しており、GPUの演算能力を十分に活用できないという課題がありました。Nemotron-Labs Diffusionは複数トークンを並列に生成し、段階的に修正する拡散方式を導入することで、この制約を突破します。生成済みトークンの修正も可能なため、誤りの伝播を抑制できます。

同モデルは3つの推論モードを備えています。従来通りの自己回帰モード、32トークン単位でブロック生成する拡散モード、そして拡散で下書きし自己回帰で検証する自己投機モードです。自己投機モードでは温度0で自己回帰と同一の出力品質を維持しながら、大幅な高速化を実現します。

性能面では、8BモデルがQwen3 8Bに対し平均精度で1.2ポイント上回りました。推論速度はハードウェア非依存の指標であるTPF（tokens per forward pass）で、拡散モードがAR比2.6倍、自己投機モードが最大6.4倍を達成しています。NVIDIA B200上のベンチマークでは毎秒約865トークンの生成速度を記録しました。

学習にはNVIDIAのNemotron事前学習データセットから1.3兆トークン、ファインチューニングに450億トークンを使用しています。推論エンジンSGLangでの対応が進んでおり、設定1行の変更で3モードを切り替え可能です。学習コードもMegatron Bridgeフレームワーク経由で公開されており、開発者はすぐに利用を開始できます。

出典：Hugging Face

特化型30億パラメータモデルが大規模AIを上回る精度を実証

2026年05月22日 Claude OCR GPT-5 Opus 推論ファインチューニングデプロイブラジルベンチマーク基盤モデル

ベンチマーク結果の衝撃

30億パラメータモデルが全商用APIに勝利

Claude Opus比で約8ポイント差の品質優位

推論コストは52分の1に削減

特化が効く構造的理由

分布整合性がパラメータ数より性能を左右

段階的ファインチューニングで精度が累積的に向上

汎用モデルと同一手法でも出発点で結果が大差

企業AI調達への示唆

最大モデル=最高性能という前提の再検証が必要

タスク特化の訓練履歴を評価軸に追加すべき

詳細を見る

Dharma AIの研究チームが、ブラジルポルトガル語のOCR ベンチマークにおいて、わずか30億パラメータの特化型小規模モデルが、Claude Opus 4.6やGPT-5.4など主要なフロンティアAPIすべてを品質・コスト・安定性の全指標で上回ったとする論文を発表しました。この結果は、企業のAI調達における「最大モデルが最良」という従来の常識に疑問を投げかけています。

ベンチマークの複合スコアで特化型3Bモデルは0.911を記録し、2位のClaude Opus 4.6の0.833を大きく引き離しました。コスト面では100万ページあたりの推論費用がClaude Opus比で約52分の1という圧倒的な差を示しています。さらにテキスト生成の崩壊率も0.20%と最低水準で、本番運用の安定性でも優位に立ちました。

研究が注目するのは「分布整合性」という変数です。モデルの性能を決定づけるのはパラメータ数ではなく、訓練履歴がデプロイ先のタスクにどれだけ近いかだと論文は主張します。同一アーキテクチャ・同一手法でファインチューニングしても、OCR特化済みの基盤モデルから出発した場合と汎用モデルから出発した場合で、精度に最大16ポイントの差が生じました。

この知見はOCR領域に限定された実証ですが、企業のAI評価フレームワークに対する重要な問題提起を含んでいます。論文は、パラメータ規模だけでなくタスクへの特化度を第一級の評価変数として扱うべきだと提言しています。汎用的な万能モデルを探すよりも、自社の業務領域に段階的に特化させたモデル群を構築する方が、品質・コスト・安定性のすべてで有利になる可能性があります。

出典：Hugging Face

FigmaがAIエージェントをデザインキャンバスに搭載

2026年05月20日 OpenAI Anthropic Claude Claude Code Codex デザイン画像編集ファインチューニング画像コーディング提携買収エージェントプロンプト Adobe Canva Figma

AIエージェントの機能

自然言語でデザイン生成・編集

複数エージェントの同時並行実行

デザイン文脈を理解する専用モデル

既存デザインの反復生成を自動化

事業環境と成長

Canva・Adobe等との競争激化

2026年Q1売上は前年比46%増

Anthropic・OpenAIとの提携済み

デザインとコードの統合を推進

詳細を見る

Figmaは2026年5月20日、協調デザインキャンバス上で動作する独自のAIエージェントを発表しました。ユーザーは自然言語のプロンプトで新規デザインの生成、既存デザインの編集、反復作業の自動化を指示でき、複数のエージェントを同時に起動して並行作業させることも可能です。

同社によると、このAIエージェントはデザイン用途にファインチューニングされたモデルで動作し、デザインの文脈や要素を理解します。チーフデザインオフィサーのLoredana Crisan氏は「ソフトウェア構築が容易になるなか、最も重要なのは方向性の設定だ」と述べ、エージェントとの協働でアイデアの検証やエッジケースの可視化が加速すると強調しました。

AIエージェントはまずFigma Designで提供を開始し、今後は他の製品にも展開する計画です。同社はこれに先立ち、AnthropicのClaude CodeやOpenAIのCodexといったAIコーディングツールとの連携を進めており、デザインとコードの距離をさらに縮める方針を示しています。

FigmaはCanvaやAdobe、Flora、Kreaなど競合との激しい競争に直面しています。昨年にはノードベースのデザインツールWeavyを買収し、AI画像編集機能も追加しました。2026年第1四半期の売上高は3億3,340万ドルで前年同期比46%増と、AI時代においても堅調な成長を続けています。

出典：TechCrunch

Cohere、218B言語モデルをOSSで初公開

高効率なMoE構造

218B中25Bのみ稼働

4bit量子化でほぼ性能劣化なし

H100わずか2基で推論可能

企業向け実用機能

出典を明示する引用生成

48言語対応の新トークナイザ

128Kコンテキストで文書処理

完全オープンソース化

Apache 2.0で商用利用自由

自社環境での独立運用が可能

詳細を見る

カナダのAI企業Cohereは2026年5月20日、218億パラメータの大規模言語モデルCommand A+を発表しました。同社として初めてApache 2.0ライセンスで公開され、企業や開発者が商用目的で自由に利用・改変・再配布できます。「Attention Is All You Need」の共著者でもあるCEOのAidan Gomez氏が主導した今回のリリースは、企業が自社環境でAIを完全に制御する「ソブリンAI」構想の具体化です。

Command A+の最大の特徴は、Sparse Mixture-of-Experts（MoE）アーキテクチャにあります。218Bの総パラメータのうち、推論時に稼働するのはわずか25Bです。これにより、OpenAIやAnthropicの数兆パラメータ規模のモデルと比較して、大幅に少ない計算資源で動作します。

さらに注目すべきはロスレス量子化技術です。MoEエキスパート部分のみを4bitに圧縮し、注意機構は高精度のまま維持する手法により、ほぼ性能を損なわずに圧縮を実現しました。その結果、NVIDIA B200 1基またはH100 2基で動作可能となり、出力速度は前世代比で最大63%向上、レイテンシは17%低減しています。

ベンチマーク性能も大幅に改善されています。複雑な推論テストτ²-Bench Telecomで37%から85%へ、数学のAIME 25で57%から90%へと飛躍しました。エージェント型コーディングではDeepSeekやGLMに後れを取るものの、25Bの稼働パラメータでこの成績は際立っています。

企業利用で重要なネイティブ引用生成機能も搭載されています。外部ツールから取得した情報について、出典元を明示的にリンクする仕組みです。金融・医療・法務など規制の厳しい業界では、ハルシネーションのリスク低減に直結します。マルチモーダル対応や128Kトークンのコンテキスト長、48言語対応の新トークナイザにより、グローバル企業の多様なニーズに応えます。

Apache 2.0での公開は、これまでCC-BY-NC 4.0で非商用に限定していたCohereの方針転換を意味します。企業は自社サーバーやエアギャップ環境でモデルを自由にファインチューニング・デプロイでき、ベンダー依存から完全に解放されます。Hugging FaceやvLLMとの即日連携も実現しており、オープンソースAIエコシステムの成熟を示すリリースといえます。

出典：VentureBeat

マルチエージェントAIのトークン消費を75%削減する新手法

2026年05月15日 Qwen 検索数学 Llama 推論ファインチューニング GPU 品質保証医療スタンフォードエージェントベンチマーク基盤モデル Mistral Gemma

テキスト通信の限界

エージェント間テキスト生成が遅延とコスト増の原因

逐次テキスト生成で推論速度が律速

全モデルの重み更新は計算コストが膨大

潜在空間での協調

RecursiveLinkで埋め込み空間を直接伝達

モデル重みは凍結し軽量モジュールのみ学習

同一基盤モデルのメモリ共有が可能

精度と効率の両立

ベースライン比で平均精度8.3%向上

推論速度最大2.4倍、訓練コスト半減

詳細を見る

イリノイ大学アーバナ・シャンペーン校とスタンフォード大学の研究チームが、マルチエージェントAIシステムの新フレームワーク「RecursiveMAS」を発表しました。従来のマルチエージェントシステムはエージェント間でテキストを生成・共有して連携しますが、これが遅延やトークンコスト増大の主因となっていました。RecursiveMASはテキストの代わりに埋め込み空間（潜在表現）を直接受け渡すことで、この根本的なボトルネックを解消します。

RecursiveMASの中核技術は「RecursiveLink」と呼ばれる軽量な2層モジュールです。各エージェントの最終隠れ層の状態をそのまま次のエージェントの入力埋め込み空間へ変換し、テキストへのデコードを経ずに情報を伝達します。内部用と外部用の2種類があり、異なるモデルアーキテクチャ間でも埋め込み次元を橋渡しできます。基盤モデルの重みは凍結したまま、RecursiveLinkのパラメータ（全体の約0.31%、約1300万パラメータ）のみを学習するため、訓練コストを大幅に抑えられます。

9つのベンチマーク（数学、医療推論、コード生成、検索ベースQA）での評価では、最強のベースラインに対し平均8.3%の精度向上を達成しました。特に推論負荷の高いタスクではTextGradを18.1%上回っています。テキスト生成を省略できるため、エンドツーエンドの推論速度は最大2.4倍に向上し、3ラウンド目のトークン使用量は75.6%削減されました。GPU最大メモリ使用量も最小で、訓練コストはフルファインチューニングの半分以下です。

同一の基盤モデルを使う複数エージェントではバックボーンを共有でき、GPUメモリの重複ロードも不要です。これらの効率改善により、企業のエージェント本番運用で課題となる計算コストの障壁を大きく引き下げます。研究チームはコードと学習済みモデルの重みをApache 2.0ライセンスでオープンソース公開しており、Qwen・Llama-3・Gemma3・Mistralなど主要なオープンモデルでの利用が可能です。

出典：VentureBeat

Murati氏の新興企業、人間協調型AIモデルを公開

2026年05月15日 OpenAI 検索アシスタントチャットボットエンジニアファインチューニング動画音声スタートアッププロンプト基盤モデルオープンソースモデル Alexa

インタラクションモデル

カメラ・マイクで連続的に人間を知覚

間・割り込み・声調を直接理解

従来の音声書き起こし方式と一線を画す

話題転換や補足に即応する設計

人間中心のAI戦略

自動化より人間の意図増幅を志向

ファインチューニングAPI「Tinker」を提供済み

数十億ドル調達で基盤モデル開発を推進

超知能時代にも人間を排除しない構想

詳細を見る

OpenAI元CTOのMira Murati氏が率いるThinking Machines Labは、カメラとマイクを通じて人間と連続的にやり取りする「インタラクションモデル」を今週プレビュー公開しました。同モデルは従来の音声アシスタントとは異なり、発話を書き起こしてからチャットボットに渡す方式ではなく、人間の間合いや割り込み、声調の変化をネイティブに理解する設計です。これにより、話題の転換や発言の補足にリアルタイムで適応できます。

Murati氏は「いずれ超知能マシンは実現するが、良い未来を多く生むには人間をループに残すべきだ」と主張しています。大手AI企業がプロンプト一つでソフトウェアを丸ごと生成する方向へ進む中、同社は人間の意図や価値観を増幅する協調型AIを掲げ、差別化を図っています。同様の理念を持つスタートアップや経済学者も存在し、人間の置き換えではなくエンパワーメントを求める声は広がっています。

Thinking Machines Labは2024年にMurati氏が共同創業し、数十億ドル規模の資金を調達済みです。これまでの唯一の製品は、2025年10月にリリースしたファインチューニングAPI「Tinker」で、研究者やエンジニアがオープンソースモデルをカスタムデータで調整できます。今回のインタラクションモデルはまだ一般公開されておらず、デモ動画での披露にとどまっています。

共同創業メンバーのAlexander Kirillov氏は、このモデルが「ユーザーの行動を常時知覚し、情報検索やツール利用を即座に行える」点を強調しました。従来のモデルでは会話のターン管理が低知能なシステムに依存していたのに対し、インタラクションモデルはより自然な対話を実現するとしています。Murati氏はこれを「人間協調への最初の賭け」と位置づけ、AIが人間の意図を理解・予測する未来像を示しました。

出典：WIRED

業務AIアプリがそのまま学習基盤に、ML人材不要の独自モデル構築

2026年05月14日 Qwen Llama 専門家推論ファインチューニングリスクコンプライアンス医療基盤モデル教師 RAG

Alchemyの仕組み

業務アプリの出力を自動で学習データ化

専門家の修正がそのまま教師データに

Expert Nano Modelsで業務特化

モデル重みは企業側が完全所有

既存手法との違い

RAGと従来ファインチューニングの第三の選択肢

別途データ整備やML人材が不要

Llama・Qwen等の基盤モデルに対応

導入効果と課題

行動療法企業が記録作業を最大87%短縮

プラットフォーム依存というトレードオフ

詳細を見る

サンフランシスコのEmpromptu AIが、企業向けカスタムAIモデル構築プラットフォーム「Alchemy Models」を発表しました。企業が運用中のAIアプリケーションから生まれる出力データを自動で収集し、社内の専門家が修正・検証した結果をそのまま学習データとして活用します。別途データセットを用意する必要がなく、ML専門チームなしでドメイン特化モデルを構築できる点が最大の特徴です。

従来、企業がAIモデルをカスタマイズするには、RAG（推論時に外部知識を参照）か、独自データセットを準備してファインチューニングするかの二択でした。Alchemyはこの両者とは異なり、業務アプリケーションそのものをデータパイプラインとして機能させます。生成されるモデルは「Expert Nano Models」と呼ばれる小規模な業務特化型で、評価・ガバナンス・コンプライアンス管理もパイプライン内で一体運用されます。

CEOのShanea Leven氏は「すべての顧客がビジネスをどう守るかに悩んでいるが、その道筋が見えていない」と指摘します。Alchemyでは利用が増えるほど学習シグナルが蓄積し、モデル精度が向上するデータフライホイールが働きます。基盤モデルはLlamaやQwenなどに対応し、重みは顧客が完全に所有できます。

早期導入企業の行動療法企業Ascent Autismでは、セッション記録や保護者向け報告書の作成にAlchemyを活用。従来1〜2時間かかっていた文書作成が10〜15分に短縮され、最大87%の時間削減を実現しました。担当者は文書を一から書く作業から、生成結果の編集・品質確認へと役割が変化しています。

ただし課題もあります。AlchemyはEmpromptuのプラットフォーム上でのみ動作するため、ベンダーロックインのリスクが伴います。また、有効なファインチューニングには一定量の本番データの蓄積が必要で、初期段階ではベースモデルのまま運用する期間が発生します。ヘルスケア・金融・法務・小売といった規制の厳しいデータ集約型業界を主要ターゲットとしており、汎用モデルの出力ミスマッチが大きい領域ほど効果が見込まれます。

出典：VentureBeat

OpenAI、GPTの「ゴブリン癖」の原因と対策を公表

2026年04月30日 OpenAI GitHub ChatGPT Codex GPT-5 エンジニア強化学習ファインチューニングリスクプロンプト RLHF

ゴブリン問題の発覚と原因

GPT-5.5のシステム指示にゴブリン禁止令が発覚

「Nerdy」人格のRLHF訓練で空想生物の比喩を過剰報酬

ゴブリン使用率がGPT-5.1以降175%増加

報酬された癖が全人格に転移・固定化

対策とAI訓練への教訓

Nerdy人格廃止後もGPT-5.5に癖が残存

Codex向けにシステムプロンプトで応急対処

GPT-6ではフィルタ済みデータで根本解決へ

強化学習の行動監査の重要性が浮き彫りに

詳細を見る

OpenAIは2026年4月29日、同社のAIモデルがコード生成時に「ゴブリン」「グレムリン」などの空想上の生物を不自然に多用する問題について、原因と対策を説明する公式ブログ記事を公開しました。この問題は4月27日に開発者がCodexのGitHubリポジトリ内のシステム指示から「ゴブリンについて絶対に話すな」という記述を発見したことで広く知られるようになり、SNS上で大きな話題となりました。

問題の根本原因は、ChatGPTの人格カスタマイズ機能の一つであった「Nerdy」モードの訓練にありました。RLHF（人間のフィードバックによる強化学習）の過程で、人間の評価者が空想生物を使った比喩表現に高い評価を与え続けた結果、モデルは「生物の比喩＝高報酬」と学習しました。Nerdyモードは全トラフィックのわずか2.5%でしたが、ゴブリン関連の言及の66.7%を占めていたとOpenAIは報告しています。

さらに深刻だったのは、この癖がNerdyモード以外にも転移したことです。強化学習で報酬された行動は特定の条件に限定されず、ゴブリン比喩を含む出力が後続モデルのファインチューニングデータに再利用されたことで、GPT-5.4やGPT-5.5の重みに「焼き込まれ」ました。2026年3月にNerdyモードを廃止した後も、GPT-5.5ではこの癖が消えませんでした。

OpenAIは当面の対策としてCodexのシステムプロンプトにゴブリン禁止の指示を追加し、次世代モデルGPT-6ではフィルタ済みのデータセットで訓練することで根本解決を目指すとしています。一方で、ゴブリン表現を好むユーザー向けに禁止指示を解除するスクリプトも公開しました。この一件は、強化学習における意図しないバイアスの伝播リスクを示す事例として、AI業界で行動監査の重要性を改めて認識させるきっかけとなっています。

出典：The Verge | VentureBeat

Poolsideがローカル実行可能な無料コーディングAIモデルを公開

2026年04月28日 Apple GitHub DeepSeek Claude Qwen エンジニアファインチューニングオープンウェイト GPU クラウドセキュリティコーディング米国中国スタートアップエージェントベンチマーク Gemma

Lagunaモデルの概要

Apache 2.0で公開のXS.2

33Bパラメータ、活性3Bの軽量MoE

ローカルGPU1枚で動作可能

企業向け225BのM.1も同時発表

性能と開発環境

SWE-bench Proで44.5%達成

独自合成データとRLで訓練

ターミナル型エージェントpool提供

モバイル対応IDE shimmer公開

詳細を見る

米AIスタートアップのPoolsideは2026年4月28日、コーディング特化の大規模言語モデル「Laguna」シリーズ2モデルを発表しました。小型モデルのLaguna XS.2はApache 2.0ライセンスで無料公開され、消費者向けGPU1枚でローカル実行できるのが大きな特徴です。同社は2023年にサンフランシスコで設立された約60人の組織で、政府・公共セクター向けにセキュアなAI開発を進めてきました。

Laguna XS.2は総パラメータ数33B、活性パラメータ数3BのMixture of Experts構成を採用しています。Apple SiliconのMacでは統合メモリ36GB以上、PCではRTX 5090など24〜32GB以上のVRAMがあれば4ビット量子化で動作します。一方、上位モデルのLaguna M.1は225BパラメータのMoEで、企業や政府向けの高セキュリティ環境での複雑なソフトウェア工学タスクに最適化されています。

ベンチマーク性能は注目に値します。XS.2はSWE-bench Proで44.5%を達成し、Claude Haiku 4.5の39.5%やGemma 4 31Bの35.7%を上回りました。M.1もSWE-bench Proで46.9%、SWE-bench Verifiedで72.5%を記録しています。訓練には30兆トークンが使われ、そのうち約13%は合成データです。独自のMuonオプティマイザにより標準手法より約15%速く学習が進むとしています。

開発者向けツールも同時に公開されました。poolはターミナルベースのコーディングエージェントで、同社が内部のRL訓練に使うのと同じAgent Client Protocolサーバとして機能します。shimmerはクラウドネイティブの開発環境で、スマートフォンからでもフル機能の開発が可能です。GitHubとの連携や既存リポジトリのインポートにも対応しています。

Poolsideがオープンウェイト公開に踏み切った背景には、「西側諸国には強力なオープンウェイトモデルが必要」という信念があります。中国企業のDeepSeekやXiaomiが低コストのオープンモデルで存在感を示すなか、米国発のオープンな対抗馬として位置づけを狙っています。なお、同社のモデルは他社のようにQwenベースのファインチューニングではなく、独自にゼロから訓練されたものです。コミュニティによる評価とファインチューニングを通じた改善を期待しているとしています。

出典：VentureBeat

Xiaomi、エージェント特化のMiMo-V2.5をMITライセンスで公開

2026年04月27日 GitHub Claude Copilot GitHub Copilot GPT-5 Opus エンジニア推論ファインチューニング動画 MIT エージェントコンテキストベンチマーク Hugging Face

モデルの性能と効率

310BパラメータのMoE構造

Pro版はエージェント成功率63.8%達成

トークン消費量は主要モデルの40〜60%削減

100万トークンのコンテキスト窓

価格とライセンス戦略

MITライセンスで商用利用自由

Pro版は入力100万トークンあたり1ドル

開発者向けに100兆トークン無料提供

実証された自律タスク

Rustコンパイラを4.3時間で完全実装

動画編集アプリ8192行を自律生成

詳細を見る

Xiaomiは2026年4月27日、オープンソースの大規模言語モデルMiMo-V2.5およびMiMo-V2.5-ProをMITライセンスで公開しました。両モデルはHugging Faceからダウンロード可能で、商用利用に制限がありません。特にエージェント型タスクにおいて、主要なクローズドソースモデルを上回る効率性を示しています。

MiMo-V2.5はSparse Mixture-of-Experts構造を採用し、総パラメータ数310Bのうち推論時にはわずか15Bのみを使用します。Pro版は1.02兆パラメータで42Bが活性化し、ClawEvalベンチマークでエージェント成功率63.8%を記録しました。これはClaude Opus 4.6やGPT-5.4と同等の成果を、40〜60%少ないトークンで達成するものです。

Pro版の能力は実際の自律タスクで実証されています。SysYコンパイラのRust実装では672回のツール呼び出しを経て4.3時間で完全なコンパイラを構築し、隠しテストで満点を取得しました。また動画編集アプリケーションでは11.5時間で8192行のデスクトップアプリを生成しています。

価格面では、Pro版が海外開発者向けに入力100万トークンあたり1ドル、出力3ドルという競争力のある設定です。100万トークンのコンテキスト窓は標準料金で利用でき、業界で広がる従量課金への移行の中でコスト予測可能性を提供します。開発者支援として100兆トークンの無料枠も用意されました。

MITライセンスの採用は戦略的に重要です。企業はXiaomiの許可なく商用展開が可能で、独自データでのファインチューニングや派生モデルの公開も自由です。GitHub Copilotの従量課金移行が発表された同日のリリースは、プロプライエタリモデルへの依存コストが高まる中で、オープンソースの代替としての存在感を強調しています。

出典：VentureBeat

DeepSeek V4公開、米国最先端モデルに迫る性能を7分の1の価格で提供

性能とコストの全体像

総パラメータ1.6兆、稼働49Bの最大オープンモデル

コンテキスト長100万トークン対応

GPT-5.5の約7分の1のAPI価格

BrowseCompで83.4%、Opus 4.7超え

アーキテクチャの技術的飛躍

CSAとHCAのハイブリッドアテンション採用

KVキャッシュを従来比2%に圧縮

ツール呼び出し間で推論履歴を保持

市場と地政学への波及

Huawei Ascend NPUでの推論を公式に検証

MIT Licenseで完全商用利用可能

米中AI知財摩擦のさなかの公開

詳細を見る

中国のAIスタートアップ DeepSeekは2026年4月24日、次世代大規模言語モデルDeepSeek V4のプレビュー版を公開しました。V4-Proは総パラメータ1.6兆、稼働パラメータ49BのMixture-of-Experts構成で、オープンウェイトモデルとしては世界最大です。コンテキスト長は100万トークンに対応し、APIの標準価格はGPT-5.5の約7分の1、Claude Opus 4.7の約6分の1に設定されています。DeepSeekは「フロンティアモデルとの差を事実上埋めた」と主張しています。

ベンチマーク結果を見ると、V4-Pro-MaxはBrowseCompで83.4%を記録し、Claude Opus 4.7の79.3%を上回りました。SWE Verifiedでは80.6%でOpus 4.6 Maxの80.8%にほぼ並び、MCPAtlas Publicでも73.6%と僅差です。一方、GPQA Diamondでは90.1%にとどまり、GPT-5.5の93.6%やOpus 4.7の94.2%には及びません。総合的にはGPT-5.5とOpus 4.7がリードを保つものの、価格対性能比ではDeepSeekが圧倒的です。

技術面では、Compressed Sparse Attention(CSA)とHeavily Compressed Attention(HCA)を交互に配置するハイブリッドアテンションが最大の特徴です。100万トークン時点でV3.2比KVキャッシュ使用量を10%、推論FLOPsを27%に削減しました。従来型のGrouped Query Attentionと比較するとKVキャッシュは約2%で済みます。エージェント用途では、ツール呼び出しを含む会話で推論履歴をターンをまたいで保持する仕組みも導入されています。

地政学的にも注目すべき点があります。DeepSeekはHuawei Ascend NPUでのファインチューニングと推論を公式に検証し、非Nvidia環境で1.5倍から1.73倍の高速化を達成したと報告しました。米国がAIチップ輸出規制を強化し、AnthropicやOpenAIがDeepSeekによるモデル蒸留を非難するなか、中国産ハードウェアでの稼働実績を明示した形です。モデルはMIT Licenseで公開され、商用利用に制限はありません。

廉価モデルのV4-Flashは入力100万トークンあたり0.14ドル、出力0.28ドルと、GPT-5.5比で98%以上安い水準です。DeepSeekは旧エンドポイントを2026年7月に完全廃止し、全トラフィックをV4アーキテクチャへ移行すると発表しました。コミュニティからは「第二のDeepSeekモーメント」との声が上がっており、企業のAI導入におけるコスト計算を根本から見直す契機になりそうです。

出典：The Verge | TechCrunch | Hugging Face | VentureBeat

OpenAIが個人情報検出モデルをオープンソース公開

2026年04月22日 OpenAI GitHub ワークフロー GPT-5 推論ファインチューニング推論モデルリスク GPU クラウドプライバシー認証コンプライアンス医療コンテキストベンチマーク Hugging Face

モデルの技術的特徴

総パラメータ15億、推論時は5000万

双方向トークン分類で文脈を理解

128Kトークンの長文書を一括処理

8種類のPIIカテゴリを検出

企業導入のメリット

端末上で完結しデータ外部送信不要

Apache 2.0で商用利用・改変が自由

ドメイン特化のファインチューニング対応

ブラウザ上でもWebGPUで実行可能

詳細を見る

OpenAIは2026年4月22日、テキスト中の個人識別情報(PII)を検出・除去する専用モデル「Privacy Filter」をオープンソースで公開しました。Apache 2.0ライセンスでHugging FaceとGitHubから利用でき、商用利用やモデルの改変も自由です。同社が自社のプライバシー保護ワークフローで使用しているモデルの公開版で、PII-Masking-300kベンチマークでF1スコア96%を達成しています。

Privacy Filterは通常の大規模言語モデルとは異なり、双方向トークン分類モデルとして設計されています。入力テキスト全体を一度に読み取り、前後の文脈から個人情報かどうかを判断します。たとえば「Alice」という単語が私的な個人名なのか、文学作品のキャラクター名なのかを周囲の文脈から区別できます。総パラメータ数は15億ですが、Mixture-of-Experts構造により推論時のアクティブパラメータは5000万に抑えられています。

検出対象は個人名・住所・メール・電話番号・URL・日付・口座番号・パスワードやAPIキーなどの秘密情報の8カテゴリです。128,000トークンのコンテキストウィンドウを持ち、法的文書や長大なメールスレッドも分割せずに処理できます。Viterbiデコーダにより「John Smith」のような複数語の名前も一貫した範囲として正しくマスキングされます。

企業にとっての最大の利点は、ローカル環境で完結する点です。ノートPCやブラウザ上で動作するため、機密データをクラウドに送信せずにPIIを除去できます。GDPRやHIPAAへの準拠が求められる環境でも、まずPrivacy Filterでデータを浄化してからGPT-5などの推論モデルに渡すワークフローが構築できます。

ただしOpenAIは、本モデルは「匿名化ツールやコンプライアンス認証の代替ではない」と注意喚起しています。医療・法務・金融などの高リスク領域では人間によるレビューとドメイン固有の評価が依然として重要です。それでも、少量のデータでファインチューニングすればF1スコアが54%から96%に向上した実験結果も示されており、各組織の用途に合わせた柔軟なカスタマイズが可能です。

出典：OpenAI公式 | VentureBeat

小型モデルの過学習が推論コスト最適化の鍵、新スケーリング則が示す

2026年04月17日エンジニア推論ファインチューニングスケーリング則リスクコーディングスタンフォードエージェント

T2スケーリング則の核心

訓練と推論の計算資源を統合最適化

モデルサイズ・学習量・推論回数を一つの式で定式化

Chinchilla則の常識を覆す結果

開発者への実践的示唆

小型モデルの大量データ学習が最適解

推論時の繰り返しサンプリングが低コストに

KVキャッシュで効率的な実装が可能

限界と今後の展望

極端な過学習でデータ枯渇の懸念

コード・推論タスク向け、チャット用途には不向き

詳細を見る

ウィスコンシン大学マディソン校とスタンフォード大学の研究チームが、AIモデルの訓練コストと推論コストを統合的に最適化する新たなフレームワーク「Train-to-Test（T2）スケーリング則」を発表しました。従来のスケーリング則は訓練時と推論時で別々に策定されており、エンドツーエンドの計算資源配分を最適化する手法が存在しませんでした。

T2スケーリング則は、モデルのパラメータ数（N）、学習データ量（D）、推論時のサンプリング回数（k）の3変数を単一の数式で扱います。従来の業界標準であるChinchilla則はパラメータ1つあたり約20トークンの学習データを推奨していますが、T2の分析結果は、固定予算下では大幅に小さいモデルをChinchilla則の推奨量をはるかに超えるデータで過学習させ、浮いた計算資源を推論時の複数サンプリングに回すことが最適であることを示しています。

研究チームは500万から9億パラメータまで100以上のモデルで検証を実施しました。過学習された小型モデルは、8つの評価タスクすべてでChinchilla最適サイズのモデルを上回る性能を達成しています。共著者のNicholas Roberts氏は、コーディングなど推論集約型タスクで特に効果が高いと説明しています。実装面ではKVキャッシュなど既存の技術で効率化が可能で、特別な基盤は不要です。

ただし極端な過学習はファインチューニングの困難さや高品質データの枯渇リスクを伴います。またチャットモデルのような知識重視のアプリケーションでは効果が限定的です。研究チームはチェックポイントとコードの公開を予定しており、Roberts氏は「巨額の計算予算がなくても最先端の推論性能を達成できる。必要なのは良質なデータと訓練・推論予算の賢い配分だ」と述べています。エージェント型AIアプリケーションのスケール時にフロンティアモデルのコストが障壁となる現状において、この研究は重要な指針を提供します。

出典：VentureBeat

Adobe Premiere新カラーグレーディング機能、NVIDIA GPU加速で32bit処理実現

2026年04月15日 Google NVIDIA アシスタントファインチューニング GPU オンデバイスコンテンツ Gemma Adobe DLSS

Color Modeの主要機能

Premiere内蔵のカラーグレーディング環境

32bit色深度で初の高精度処理

6ゾーンの輝度調整に対応

文脈対応スコープとHUDオーバーレイ搭載

GPU活用と関連発表

GeForce RTX・RTX PRO系で高速化

Project G-Assist v0.2.1も同時更新

NAB Show 2026で正式発表

Filmora等他社ツールもNVIDIA連携強化

詳細を見る

NVIDIAは2026年4月18日から22日にラスベガスで開催されるNAB Show 2026に合わせ、AdobeがPremiereの新機能「Color Mode」をベータ版として発表することを明らかにしました。この機能はNVIDIA RTX GPUによるアクセラレーションを活用し、映像制作者がPremiere内で直接カラーグレーディングを行える専用環境を提供します。6万人以上のコンテンツプロフェッショナルが集まる同イベントで披露されます。

Color Modeは、Premiere内にネストされた専用グレーディング環境として設計されています。大型のプログラムモニターが中心に配置され、調整結果を即座に視覚的にフィードバックすることで、迅速な判断と精密な操作を可能にします。クリップグリッドビューにより、シーケンス内のショット間の一貫性を維持しやすくなっています。

技術面では、32bit色深度での処理に初めて対応し、最大限の色再現性を実現しています。従来のハイライト・ミッドトーン・シャドウの3ゾーンモデルを超え、最大6つの輝度調整ゾーンを利用できます。双方向コントロールやマルチゾーントーナルシェーピング、スタック型カラー操作など、すべての処理がNVIDIA GPU上で実行されます。

NVIDIAはあわせて、デバイス上で動作するAIアシスタント「Project G-Assist」のv0.2.1アップデートも発表しました。ゲーム設定の高度な検出システムと知識システムの強化により、eスポーツやAAAタイトルの設定調整でより高精度な助言が可能になっています。DLSS Overrides、Smooth Motion、RTX HDRなどNVIDIA Appの高度な機能も制御対象に加わりました。

そのほかNAB関連の動向として、WondershareのFilmoraがNVIDIA Broadcast技術を活用したアイコンタクト補正機能を追加したほか、UnslothとNVIDIAの協力によりファインチューニング性能が15%向上したことも報告されています。GoogleのGemma 4モデルファミリーもNVIDIA GPU向けに最適化され、RTX搭載PCからJetson Orin Nanoまで幅広いデバイスで効率的に動作します。

出典：NVIDIA公式

Copilot Studioの脆弱性、修正後もデータ流出が発生

2026年04月15日マイクロソフト Salesforce Copilot CRM ファインチューニングリスク脆弱性プロンプトインジェクションパッチコンテンツセキュリティ認証エージェントプロンプト

発見された脆弱性の実態

ShareLeakはCVSS 7.5の深刻度

SharePoint経由で認証不要の攻撃が成立

DLPが正規Outlook操作を素通し

Salesforce側はCVE未割当のまま

エージェントAIの構造的リスク

機密データ・外部入力・通信の三要素が根因

パッチだけでは排除不能な脆弱性クラス

ランタイム監視の不在が本質的課題

Capsule Securityが700万ドル調達し参入

詳細を見る

Capsule Securityは2026年4月15日、Microsoft Copilot Studioに存在した間接プロンプトインジェクション脆弱性「ShareLeak」（CVE-2026-21520、CVSS 7.5）の詳細を公開しました。同社は2025年11月に脆弱性を発見し、Microsoftが2026年1月15日にパッチを適用しましたが、テストではパッチ後もデータが流出することが確認されています。

ShareLeakの攻撃手法は、SharePointの公開フォームに悪意あるペイロードを投入し、Copilot Studioエージェントのシステム指示を上書きするものです。エージェントは接続先のSharePoint Listsから顧客データを取得し、攻撃者のメールアドレスへOutlook経由で送信します。Microsoftのセーフティ機構は不審な操作として検知したものの、DLP（データ損失防止）は正規のOutlookアクションとして処理したため、流出を阻止できませんでした。

同社はSalesforce Agentforceにも同種の脆弱性「PipeLeak」を発見しています。公開リードフォームから認証なしでエージェントを乗っ取り、CRMデータを無制限に流出させることが可能でした。Salesforceは2025年9月に別の脆弱性ForcedLeakをパッチ済みですが、PipeLeakはメール経由という別経路を利用するため、そのパッチを回避します。Salesforceは本件についてCVEを割り当てておらず、公式アドバイザリも出していません。

Capsule SecurityのCEO、Naor Paz氏はこの問題の根本原因を「致命的な三要素」と名付けました。機密データへのアクセス、信頼できないコンテンツへの露出、外部との通信能力の3つが揃う環境は、あらゆるエージェントを攻撃可能にします。CrowdStrikeのCTO、Elia Zaitsev氏は「パッチですべての脆弱性を塞ぐのは不可能だ」と述べ、ランタイムセキュリティの重要性を指摘しています。

Capsule Securityは同日、Lama Partners主導による700万ドルのシードラウンドを発表し、ステルスモードから脱却しました。同社のアーキテクチャは、ベンダー提供のエージェント実行フックに接続し、ファインチューニングされた小規模言語モデルがすべてのツール呼び出しを実行前に評価する「ガーディアンエージェント」方式を採用しています。Microsoftが今回プロンプトインジェクションにCVEを割り当てた判断は業界全体に波及する可能性があり、エージェントAIのセキュリティを従来のパッチ管理ではなく、ランタイム監視を含む多層防御として再構築する必要性を示しています。

出典：VentureBeat

OpenAI、サイバー防御向け専用モデルを提供開始

2026年04月14日 OpenAI ChatGPT Codex エコシステム GPT-5 エンジニアファインチューニングリスク脆弱性インフラセキュリティ認証デプロイ

TACプログラム拡大

数千人規模の個人防御者へ開放

数百チームの重要インフラ防御組織が対象

本人確認による段階的アクセス制御

chatgpt.com/cyberから個人登録可能

GPT-5.4-Cyberの特徴

防御用途向けにファインチューニング

バイナリリバースエンジニアリング機能搭載

正当な脆弱性研究への制限を緩和

限定的・段階的なデプロイで提供開始

サイバー防御戦略の全体像

Codex Securityで3,000件超の重大脆弱性を修正

1,000以上のOSSプロジェクトに無料スキャン提供

詳細を見る

OpenAIは2026年4月14日、サイバー防御者向けの信頼アクセスプログラム「Trusted Access for Cyber（TAC）」を大幅に拡大し、数千人の認証済み個人防御者と数百の重要ソフトウェア防御チームに開放すると発表しました。同時に、防御的サイバーセキュリティ用途に特化してファインチューニングした新モデル「GPT-5.4-Cyber」の提供を開始します。

GPT-5.4-Cyberは、GPT-5.4をベースにサイバーセキュリティの正当な業務に対する制限を緩和したモデルです。最大の特徴は、ソースコードなしでコンパイル済みソフトウェアのマルウェア分析や脆弱性調査を行えるバイナリリバースエンジニアリング機能を備えている点です。デュアルユースのリスクがあるため、審査済みのセキュリティベンダーや研究者に限定して段階的に展開されます。

TACプログラムへのアクセスは明確な手順で設計されています。個人ユーザーはchatgpt.com/cyberで本人確認を行うことで登録でき、企業はOpenAIの担当者を通じてチーム単位でのアクセスを申請します。承認されたユーザーは、デュアルユースのサイバー活動に関する安全制限が緩和されたモデルを利用でき、さらに上位のアクセス階層としてGPT-5.4-Cyberの利用を希望することも可能です。

OpenAIのサイバーセキュリティ戦略は、アクセスの民主化、反復的デプロイ、エコシステムの回復力という3つの原則に基づいています。同社はGPT-5.2から段階的にサイバー特化の安全訓練を拡充してきました。GPT-5.4は準備態勢フレームワークで「高」サイバー能力に分類されており、モデル能力の向上に合わせて防御も拡大する方針を掲げています。

実績面では、半年前にプライベートベータで開始したCodex Securityがコードベースの自動監視と修正提案を行い、3,000件超の重大・高リスク脆弱性の修正に貢献しています。また、1,000以上のオープンソースプロジェクトに無料セキュリティスキャンを提供する「Codex for Open Source」や、総額1,000万ドルのサイバーセキュリティ助成プログラムも展開しており、防御者コミュニティの強化を多面的に進めています。

出典：OpenAI公式

TechCrunch、AI用語集を更新し最新定義を公開

2026年04月12日 Google OpenAI Gemini ChatGPT Claude アシスタント音楽生成エンジニア推論ファインチューニングリスクハルシネーション半導体 AGI 画像音楽エージェント Google DeepMind

収録用語の概要

AGIやLLMなど主要語を網羅

ハルシネーションの定義と危険性

推論・学習・トークンの基礎解説

拡散モデルや蒸留技術も収録

新たに追加された項目

AIエージェントの定義を掲載

RAMageddonなど新造語も解説

メモリキャッシュの仕組みを説明

連鎖思考による推論手法の紹介

詳細を見る

TechCrunchは2026年4月12日、人工知能分野で頻出する専門用語をまとめた用語集の最新版を公開しました。この用語集は、AI業界の報道で使われる技術用語を一般読者にもわかりやすく解説することを目的としています。複数の記者が共同で執筆しており、新たな手法や安全上のリスクが発見されるたびに定期的に更新される方針です。

収録されている用語はAGI（汎用人工知能）、LLM（大規模言語モデル）、ハルシネーション、推論、学習、トークンなど多岐にわたります。AGIの定義についてはOpenAI、Google DeepMindなど主要企業ごとに解釈が異なることも併せて紹介しています。LLMについてはChatGPTやClaude、Geminiといった具体的なAIアシスタントとの関係も説明されています。

注目すべき新項目として、AIエージェントの定義が加わりました。経費精算やレストラン予約、コード管理といったタスクを自律的に実行するツールとして説明されています。またRAMageddonという新造語も収録され、AI産業の急成長がメモリチップの世界的な供給不足を引き起こしている状況を解説しています。

技術的な項目では、連鎖思考（Chain of Thought）による推論の精度向上、拡散モデルによる画像・音楽生成の仕組み、蒸留技術による小型モデルの効率的な開発手法などが取り上げられています。ファインチューニングや転移学習といったモデル最適化の手法も網羅されており、AI開発の全体像を俯瞰できる内容です。

この用語集は、AIを活用したいビジネスリーダーやエンジニアにとって実用的なリファレンスとなります。専門用語の壁を越えて技術の本質を理解するための入り口として、定期的に参照する価値があるでしょう。

出典：TechCrunch

Valveの「SteamGPT」ファイル流出、AIによる不正検知を示唆

2026年04月10日 ChatGPT AI活用推論ファインチューニングセキュリティ

流出ファイルの概要

Steam更新でSteamGPT関連ファイル発見

推論・ファインチューニング等のAI用語を含む

4月7日のクライアント更新で追加

想定されるAI活用

マルチプレイヤー通報の自動分類機能

不正アカウントの行動パターン要約

VAC禁止・Steam Guard等のセキュリティ情報を分析

アカウントの信頼スコアとの連携

詳細を見る

2026年4月7日のSteamクライアント更新で、「SteamGPT」と名付けられた複数のファイルが発見されました。Valve関連の動向を追跡するSteamTrackingプロジェクトがこれを検出し、PCゲーミングプラットフォーム最大手がAI機能の導入を検討している可能性が浮上しています。Ars Technicaが詳細を報じました。

流出したファイルには、マルチカテゴリ推論やファインチューニング、「上流モデル」といったAI関連の変数名が含まれています。これらはChatGPTなどで知られる生成AI技術を示唆しており、Valveが社内向けにAIシステムを構築している可能性を示しています。

想定される用途の一つは、Steamのマルチプレイヤーゲームにおけるインシデント報告の自動分類です。ファイル内には「ラベリングタスク」や「評価エビデンスログ」といった変数があり、ユーザーからの通報を自動的にカテゴリ分けするシステムが検討されているとみられます。

もう一つの用途として、不正アカウントの検出支援が挙げられます。「SteamGPTSummary」関連の関数には、VAC禁止歴やSteam Guard設定、不正メールアドレスの判定、電話番号の国情報など、アカウントの信頼性を総合的に評価するための参照データが含まれています。

現時点ではValveから公式な発表はなく、これらのファイルが実際にユーザー向け機能として実装されるかは不明です。ただし、ゲーム業界でもAI活用の流れが加速するなか、不正対策やモデレーションの効率化にAIを活用する動きとして注目されます。

出典：Ars Technica

AIエージェント自己進化フレームワークが相次ぎ登場

2026年04月08日 Claude Claude Code Codex ワークフロー強化学習ファインチューニングエージェントベンチマーク

経験から学ぶ仕組み

実行履歴を再利用可能な知見に変換

モデル再訓練なしで能力向上

外部メモリとして知識を蓄積

ベンチマークでの成果

困難なタスクで最大14.2%改善

GAIA精度13.7ポイント向上

スキル自動生成・修正を実現

企業導入への課題

構造化ワークフローが適用条件

安全性と評価基盤が不可欠

詳細を見る

AIエージェントが過去の経験から自律的に学習し、モデルの再訓練なしに能力を向上させるフレームワークが相次いで発表されました。IBM Research等が開発したALTK-Evolveと、複数大学の研究者によるMemento-Skillsは、いずれもエージェントの「永遠のインターン問題」に取り組んでいます。

ALTK-Evolveは、エージェントの実行履歴から再利用可能なガイドラインを抽出し、品質スコアリングで精査したうえで必要な場面でのみ注入する仕組みです。AppWorldベンチマークでは、困難なタスクで14.2ポイントの改善を達成しました。Claude CodeやCodexへのプラグイン統合にも対応しています。

一方のMemento-Skillsは、スキルをマークダウン形式で保存し、実行結果に基づいて自動的に書き換える「読み書き反省学習」を採用しています。GAIAベンチマークで13.7ポイント、HLEベンチマークでは17.9%から38.7%へと倍増する成果を示しました。意味的類似度ではなく強化学習ベースのスキル選択により、タスク成功率を80%に引き上げています。

両フレームワークに共通するのは、大規模言語モデルのパラメータを固定したまま、外部メモリを通じて継続的に学習する設計思想です。従来の手動スキル設計やファインチューニングに伴う運用負担を大幅に軽減できる可能性があります。

ただし、企業導入には構造化されたワークフローが前提条件となります。Memento-Skillsの共同著者Jun Wang氏は、タスク間の構造的類似性が高い環境でこそ効果を発揮すると指摘しています。物理エージェントや長期的タスクへの適用には、マルチエージェント協調など更なる研究が必要です。安全性の面では自動テストゲートなどの基本的な仕組みはあるものの、企業規模での運用にはより包括的なガバナンス体制が求められます。

出典：Hugging Face | VentureBeat

Google医療AIコンペMedGemma受賞者を発表

2026年03月26日 Google ワークフローエンジニアファインチューニングオープンウェイトオンデバイス音声医療エージェント Gemma

主要受賞プロジェクト

EpiCast：西アフリカの疾病監視支援

FieldScreen AI：結核スクリーニング

Tracer：医療ミス防止ワークフロー

技術特別賞と展望

BridgeDX：災害時オフライン診断支援

CaseTwin：胸部X線の類似症例照合

BigTB6：音声駆動の結核・貧血検査

850超チームがHAI-DEF活用で参加

途上国の医療格差解消に焦点

詳細を見る

Googleは、医療AI開発者向けオープンモデル基盤「Health AI Developer Foundations（HAI-DEF）」プログラムの一環として開催した「MedGemma Impact Challenge」の受賞者を発表しました。Kaggleと共催した本コンペには850以上のチームが参加し、医療課題の解決に挑みました。

グランプリのEpiCastは、西アフリカ経済共同体の疾病監視の空白を埋めるモバイルファーストのソリューションです。ファインチューニングしたMedGemmaモデルにMedSigLIPやHeARを組み合わせ、地域言語による臨床観察をWHOの統合疾病監視・対応シグナルに変換し、感染症アウトブレイクの早期発見を支援します。

FieldScreen AIは、リソースが限られた環境向けの結核スクリーニングワークフローです。MedGemmaによる胸部X線解析とHeARベースの咳音声分類を組み合わせ、完全にオンデバイスで動作します。Tracerは医師のメモから仮説を抽出し、検査結果と照合することで医療ミスの防止を目指します。

技術特別賞では3テーマが表彰されました。BridgeDXは2015年ネパール地震の経験から着想を得たオフライン診断支援デモで、WHOやMSFのガイドラインに基づきます。CaseTwinはエージェント型ワークフローで胸部X線の類似症例を照合し、農村部の病院での紹介プロセスを数時間から数分に短縮します。

本コンペは、HAI-DEFのオープンウェイトモデルが世界中の医療格差解消に大きな可能性を持つことを示しました。Googleは2024年末にHAI-DEFを立ち上げ、2025年1月にはMedGemma 1.5を公開しており、今後も開発者コミュニティとの連携を通じて医療AIの民主化を推進する方針です。

出典：Google公式

Mistral、推論・視覚・コード統合の小型モデルSmall 4公開

2026年03月20日 Claude Qwen gpt-oss 推論ファインチューニングリスクプライバシーコーディングエージェントコンテキストベンチマークオープンソースモデル Mistral

Small 4の特徴

Apache 2.0で公開

総パラメータ1190億、活性60億

128エキスパートのMoE構成

256Kコンテキスト対応

推論コスト削減

出力が他モデルより大幅に短い

推論努力を動的に調整可能

H100×4台で運用可能

ベンチマーク性能

MMLU ProでMistral Large 3に迫る性能

GPT-OSS 120BをLCRで上回る

詳細を見る

Mistralは2026年3月、推論・マルチモーダル・エージェントコーディングの3機能を統合した小型オープンソースモデル「Small 4」を公開しました。Apache 2.0ライセンスで提供され、企業が複数モデルを使い分ける必要性を解消することを目指しています。

Small 4はMixture-of-Experts（MoE）アーキテクチャを採用し、総パラメータ数1190億のうち、トークンあたりの活性パラメータはわずか60億に抑えられています。128のエキスパートから各トークンで4つが選択される設計により、効率的なスケーリングと専門化を実現しています。

新たに導入された「reasoning_effort」パラメータにより、ユーザーは推論の深さを動的に調整できます。軽量な高速応答からMagistralのようなステップバイステップの詳細推論まで、用途に応じた切り替えが可能です。256Kのコンテキストウィンドウも長文分析に対応します。

ベンチマークでは、MMLU ProでMistral Medium 3.1やMistral Large 3に迫る性能を示しました。一方、LiveCodeBenchではQwen 3.5 122BやClaude Haikuに及ばない結果も出ています。ただしSmall 4はインストラクトモードで最短の出力長（2.1K文字）を記録し、推論コスト面での優位性を主張しています。

小型言語モデル市場のNeurometric社CEOロブ・メイ氏は、Small 4のアーキテクチャの柔軟性を評価しつつも、小型モデル市場の断片化リスクを指摘しました。企業がAIモデルを選定する際には「信頼性と構造化出力」「レイテンシと知能の比率」「ファインチューニング可能性とプライバシー」の3つの柱を優先すべきだと述べています。

出典：VentureBeat

NVIDIA、1日で専用埋め込みモデルを構築するレシピ公開

2026年03月20日 OpenAI NVIDIA 検索推論ファインチューニング GPU RAG

手法と成果

GPU1台・1日未満で完結

ラベル不要の合成データ生成

ハードネガティブマイニング採用

Recall・NDCG@10が10%以上改善

企業実績と展開

AtlassianがJiraで検証済み

Recall@60が0.751→0.951に向上

NIMでOpenAI互換API展開

6コマンドで全工程実行可能

詳細を見る

NVIDIAは2026年3月20日、汎用埋め込みモデルを特定ドメインに最適化するファインチューニングレシピを公開しました。GPU1台と1日未満の学習時間で、手動ラベリング不要で高品質なドメイン特化型埋め込みモデルを構築できます。

本レシピの核心は、LLMを使った合成データ生成パイプラインです。ドメイン文書をLLMに読み込ませ、複雑さの異なる質問・回答ペアを自動生成します。マルチホップクエリにも対応し、複数文書にまたがる推論を学習データに反映できます。

学習効果を高めるため、ハードネガティブマイニングを導入しています。正解に近いが誤りである文書を特定し、モデルが微妙な違いを学習できるようにします。正解スコアの95%以上の候補は偽陰性の可能性があるため自動除外されます。

Atlassianは本レシピをJiraデータセットに適用し、Recall@60が0.751から0.951へと26.7%向上する成果を確認しました。数百万のRovoユーザーの検索精度が直接的に改善されています。

完成したモデルはONNXやTensorRTに変換後、NVIDIA NIMコンテナでOpenAI互換APIとして本番展開できます。既存のRAGパイプラインにコード変更なしで組み込める点が実用上の大きな利点です。

出典：Hugging Face

Hugging Faceオープンソース生態系、中国勢が米国を逆転

2026年03月17日 DeepSeek Qwen エコシステム画像生成ファインチューニングデータセンター画像米国中国欧州韓国ロボティクス創薬提携 ByteDance Hugging Face

エコシステムの急成長

ユーザー1300万人に倍増

公開モデル200万超を達成

データセット50万件を突破

Fortune 500の30%超が参加

中国の台頭と地政学

中国がダウンロード数で米国を逆転

Qwen派生モデルが20万件超

韓国・欧州がAI主権を推進

技術トレンドの変化

ロボティクスデータセットが23倍増

小型モデルの実用採用が加速

詳細を見る

Hugging Faceは2026年春のオープンソースAI生態系レポートを公開しました。2025年にユーザー数は1300万人に達し、公開モデルは200万件超、データセットは50万件を突破するなど、すべての指標がほぼ倍増しています。

中国が月間ダウンロード数で米国を逆転し、全ダウンロードの41%を占めるに至りました。DeepSeek R1の公開を契機に、Baiduは2024年のゼロから100件超のリリースへ急増し、ByteDanceやTencentも8〜9倍にリリース数を拡大しています。

企業の開発シェアは2022年以前の約70%から2025年には37%に低下しました。一方、個人や小規模コミュニティがダウンロードの39%を占め、量子化やファインチューニングを通じてモデルの流通を主導する存在へと成長しています。

各国政府はAI主権の確保に動いています。韓国は国家ソブリンAIイニシアティブを発足させ、LG AI ResearchやNaverなど国内企業を指名しました。スイスやEU各国も公的資金によるオープンモデル開発を推進し、Reflection AIと韓国のデータセンター提携も発表されています。

ロボティクス分野ではデータセットが2024年の1,145件から2025年に26,991件へと急増し、Hub最大のカテゴリとなりました。科学研究でもタンパク質折りたたみや創薬への応用が進み、オープンソースAIは言語・画像生成を超えて物理世界への拡張を加速させています。

出典：Hugging Face

NVIDIA、GTC 2026でローカルAI向け新モデルと開発基盤を発表

2026年03月17日 NVIDIA Qwen OpenClaw アシスタントクリエイティブ画像編集推論ファインチューニング GPU クラウドプライバシー画像エージェントコンテキストベンチマーク Mistral

新オープンモデル群

Nemotron 3 Super、1200億パラメータ

Mistral Small 4がDGX Sparkに対応

Nemotron 3 Nano 4B、軽量PC向け

Qwen 3.5最適化も同時発表

エージェント基盤整備

NemoClaw、OpenClaw向けOSS公開

ローカル推論でプライバシー確保

Unsloth Studioでファインチューニング簡易化

クリエイティブAI強化

LTX 2.3が2.1倍高速化

FLUX.2 Klein 9Bの画像編集2倍速

詳細を見る

NVIDIAは2026年3月のGTC 2026において、ローカル環境で動作するAIエージェント向けの新しいオープンモデル群と開発基盤を発表しました。DGX SparkやRTX PCでクラウド級の性能を実現することを目指しています。

Nemotron 3 Superは1200億パラメータのオープンモデルで、アクティブパラメータは120億に抑えられています。エージェントAI向けベンチマークPinchBenchで85.6%を記録し、同クラスのオープンモデルで最高スコアを達成しました。

小型モデルとしてはNemotron 3 Nano 4Bが発表され、GeForce RTX搭載PCでもエージェントやアシスタントの構築が可能になります。AlibabaのQwen 3.5シリーズ向けの最適化も同時に提供され、26万2000トークンの大規模コンテキストウィンドウに対応します。

エージェント実行基盤としてNemoClawがオープンソースで公開されました。OpenClaw向けの最適化スタックで、ローカルモデルによる推論でトークンコストを削減し、OpenShellランタイムによるセキュアな実行環境を提供します。

ファインチューニングの分野では、Unsloth StudioがウェブベースのUIで公開され、500以上のAIモデルに対応します。従来は高度な技術知識が必要だったカスタマイズ作業を、ドラッグ＆ドロップの直感的な操作で完結できるようになりました。

クリエイティブAI分野では、LightricksのLTX 2.3がNVFP4・FP8対応で2.1倍の高速化を実現し、Black Forest LabsのFLUX.2 Klein 9Bも画像編集が最大2倍に高速化されました。RTX GPU向けに最適化されたモデルが続々と登場しています。

出典：NVIDIA公式

Mistral AI、独自モデル構築基盤「Forge」を発表

2026年03月17日 NVIDIA 強化学習ファインチューニング事前学習事後学習 GPU クラウドポリシーデプロイ欧州提携 ARR エージェント基盤モデル教師 Mistral Palantir

Forgeの主要機能

フルサイクルのモデル訓練を支援

事前学習から強化学習まで対応

オンプレミス環境での完全運用が可能

データ非公開のまま独自モデル構築

競合との差別化戦略

組込み型AIサイエンティストを派遣

クラウド大手のAPI微調整を超える深度

Apache 2.0のオープンソース基盤

Nvidia連合で基盤モデル共同開発

詳細を見る

仏Mistral AIは2026年3月17日、企業が自社の独自データを使ってAIモデルを構築・カスタマイズできるエンタープライズ向けモデル訓練基盤「Forge」を発表しました。NvidiaのGTCカンファレンスで披露され、クラウド大手への対抗姿勢を鮮明にしています。

Forgeは従来のファインチューニングAPIを大幅に超え、大規模内部データでの事前学習、教師ありファインチューニング、DPO、ODPOによるポストトレーニング、さらに社内ポリシーや評価基準に沿った強化学習パイプラインまでフルサイクルで対応します。製品責任者のサラマンカ氏は「AIサイエンティストはもはやファインチューニングAPIを使っていない」と述べています。

早期導入企業の事例では、Ericssonがレガシーコードの現代化に活用し、年単位の手作業を大幅に短縮しました。また古文書の欠損テキスト復元や、ヘッジファンドの独自定量言語への対応など、汎用モデルでは解決できない高度な専門領域での成果が報告されています。

ビジネスモデルは顧客が自社GPU上で訓練する場合、ライセンス料とデータパイプラインサービス料を課金し、計算資源は非課金とします。最大の特徴は「フォワードデプロイド・サイエンティスト」と呼ばれる組込み型AI研究者の派遣で、Palantir型の伴走支援モデルを採用しています。

同週にはMistral Small 4、オープンソースコードエージェントLeanstral、NvidiaとのNemotron Coalition参画も発表されました。ARRは2026年中に10億ドル突破を見込んでおり、ASMLや欧州宇宙機関など機密性の高い組織との提携を通じ、「AIを借りるのではなく所有する」という戦略を加速させています。

出典：VentureBeat | TechCrunch

Google DeepMind、アフリカ向け高度AI教育を無償展開

2026年03月17日 Google 専門家ファインチューニングトランスフォーマー Google DeepMind

カリキュラムの特徴

生成AIモデルの実践的構築演習

UCLと共同開発の無償講座

Transformerの深い技術理解を提供

自習・大学講義の両形式に対応

アフリカ展開の背景

世界人口の20%だがAI研究貢献は1.8%

AIMSと連携し現地文脈に最適化

Google.orgが400万ドルを拠出

講師育成プログラムを本格始動

詳細を見る

Google DeepMindは、アフリカの次世代技術者を対象とした高度AI教育プログラム「AI Research Foundations」の拡充を発表しました。University College Londonの教育専門家と共同開発された本カリキュラムは、Google Skillsプラットフォームで無償提供されます。

本プログラムはAIリテラシーの入門にとどまらず、生成言語モデルやTransformerを実際に構築・ファインチューニングする実践的内容を提供します。受講者は言語モデルをゼロから構築する経験を通じ、最先端AI研究に必要な基盤スキルを習得できます。

アフリカは世界人口の約20%を占めるにもかかわらず、AI研究への貢献はわずか1.8%にとどまっています。この格差を埋めるため、アフリカ数理科学研究所（AIMS）の専門家と協力し、大陸固有の研究ユースケースを取り入れたローカライズを実施しました。

Google.orgはFATE Foundationに400万ドルの資金を提供し、AIMSとの連携でオンラインカリキュラムをアフリカの教室に展開します。専門の講師ツールキットや「トレイン・ザ・トレーナー」プログラムにより、現地教育者の指導力強化を図ります。

本取り組みは責任あるイノベーションの原則に基づき設計されており、アフリカの研究者が自らのコミュニティにとって重要な課題にAIを活用できるよう支援します。カリキュラムはアフリカ向けに最適化されていますが、世界中の学習者が無償でアクセス可能です。

出典：Google公式

MSがFireworks AIとAzure基盤で提携、オープンモデル推論を強化

2026年03月11日 OpenAI マイクロソフト DeepSeek gpt-oss 推論ファインチューニングインフラデプロイ提携エージェント

統合の概要

Microsoft Foundry上で提供開始

DeepSeek V3.2など4モデル対応

毎日13兆トークン処理の実績

秒間18万リクエストの高速推論

企業向け機能

サーバーレスと固定スループットの選択制

独自学習済み重みの持ち込み対応

Azure水準のガバナンスと監視機能

エージェント開発・評価の統合環境

詳細を見る

Microsoftは、AI統合基盤「Microsoft Foundry」上でFireworks AIのオープンモデル推論サービスのパブリックプレビューを開始したと発表しました。企業がオープンモデルを本番環境で安全かつ効率的に運用できる体制を整えます。

Fireworks AIは業界トップクラスの推論性能を誇り、毎日13兆トークンを処理し、秒間約18万リクエストを捌く実績があります。大規模モデルでも毎秒1,000トークン以上の生成速度を実現しており、この性能がAzure上で利用可能になります。

対応モデルはDeepSeek V3.2、OpenAI gpt-oss-120b、Kimi K2.5、新規追加のMiniMax M2.5の4種類です。サーバーレスの従量課金と、安定稼働向けのプロビジョンドスループットユニットの2つの料金体系から選択できます。

企業向けには独自のファインチューニング済みモデルをアップロードして推論に使える「BYOW」機能を提供します。既存の推論スタックを変更せずにカスタムモデルを登録・運用でき、実験から本番移行までの障壁を大幅に下げます。

Microsoft Foundryはモデル評価からデプロイ、ガバナンス、監視までを一元管理するエンタープライズ制御基盤として設計されています。オープンモデルの採用拡大に伴い、ツールやインフラの分断を防ぎ、継続的な改善サイクルを支える統合プラットフォームとして位置づけられています。

出典：Microsoft公式

Microsoft、150億パラメータの視覚推論モデルPhi-4をオープン公開

2026年03月04日マイクロソフト GitHub Qwen エコシステム数学推論ファインチューニングオープンウェイト推論モデル品質保証画像ロボティクス MIT ベンチマーク Hugging Face Gemma

モデルの特徴と性能

150億パラメータの軽量マルチモーダルモデル

競合比5分の1のデータ量で訓練

数学・科学推論とGUI操作に特化

精度と推論速度のパレート最適を実現

推論の選択的制御

思考・非思考の混合モード搭載

画像認識は直接応答で低遅延実現

数学問題は段階的推論で精度向上

ユーザーがモード手動切替も可能

公開とエコシステム展開

HuggingFace・GitHubで重み公開

Phiファミリーがロボティクス領域にも拡大

詳細を見る

Microsoft Researchは、150億パラメータのオープンウェイト・マルチモーダル推論モデル「Phi-4-reasoning-vision-15B」を公開しました。テキストと画像の両方を処理し、数学・科学の推論、チャート読解、GUI操作など幅広いタスクに対応します。

最大の特徴は訓練効率の高さです。約2000億トークンのマルチモーダルデータで訓練されており、QwenやGemma3など競合モデルが1兆トークン以上を使用するのに対し、およそ5分の1のデータ量にとどまります。その秘訣はオープンソースデータの徹底的なフィルタリングと品質改善にあります。

技術的に注目すべきは「混合推論」アプローチです。訓練データの約20%に思考過程を含む推論サンプルを、80%に直接応答のサンプルを使用し、モデルがタスクに応じて推論の要否を自動判断する仕組みを実現しました。画像キャプションでは即座に応答し、数学では段階的に思考します。

ベンチマーク評価では、ChartQAで83.3、MathVistaで75.2、ScreenSpot v2で88.2のスコアを記録しました。大型モデルのQwen3-VL-32Bには及ばないものの、同規模モデルを上回り、推論速度と精度のバランスでパレート最前線に位置しています。

Microsoftは本モデルをMIT許容ライセンスで公開し、ファインチューニングコードや評価ログも提供しています。Phiファミリーはエッジデバイス向けのPhi Silicaやロボティクス向けのRho-alphaにも拡大しており、「最も賢いモデルは最大のモデルではなく、いつ考えるべきか知っているモデルだ」という戦略を鮮明にしています。

出典：Microsoft公式 | VentureBeat

Photoroom、画像生成モデルを24時間・約22万円で訓練する手法を公開

2026年03月03日 GitHub Gemini 画像生成ファインチューニングパッチ GPU 画像プロンプトトランスフォーマー教師 Pixel

訓練レシピの全体像

H200 32台で24時間の速習訓練

総コスト約1500ドルに抑制

ピクセル空間で直接訓練しVAE不要に

TREADトークンルーティングで計算削減

品質向上の技術要素

LPIPSとDINOの知覚損失を併用

REPAでDINOv3と表現整合

オプティマイザにMuonを採用

コードとレシピをOSS公開

詳細を見る

Photoroomは2026年3月3日、テキストから画像を生成する拡散モデルを24時間・約1500ドル（約22万円）の計算予算で訓練する手法「PRX Part 3」を公開しました。H200 GPU 32台を使用し、コードもGitHubでオープンソース化しています。

最大の特徴はピクセル空間での直接訓練です。従来必要だったVAE（変分オートエンコーダ）を排除し、パッチサイズ32と256次元のボトルネック層で系列長を制御します。512pxで訓練を開始し、1024pxへファインチューニングする2段階方式を採用しています。

品質向上のため知覚損失を2種類導入しています。LPIPSは低レベルの知覚的類似性を、DINOv2ベースの損失は意味的な信号を捉えます。プール済み画像全体に適用し、全ノイズレベルで計算する独自の工夫が加えられています。

計算効率の面ではTREADによるトークンルーティングを採用し、50%のトークンをTransformerブロックの大部分でスキップさせます。またREPAでDINOv3教師モデルとの表現整合を行い、収束を加速させています。オプティマイザにはMuonを使用しAdamを上回る性能を確認しています。

訓練データは合成データセット3種（計約870万枚）を使用し、Gemini 1.5でキャプションを再生成しています。生成品質にはまだ改善余地があるものの、プロンプト追従性や美的一貫性は高く、構造的な欠陥ではなくデータ多様性の不足が主な課題と分析しています。

出典：Hugging Face

Alibaba「Qwen3.5」小型モデル群公開、9Bで120B超え性能

2026年03月02日 OpenAI Gemini Qwen gpt-oss エンジニア推論ファインチューニングクラウド品質保証動画リファクタリングベンチマークオープンソースモデルトランスフォーマー Hugging Face

小型で大型超えの性能

9BがOpenAI 120Bを上回る推論性能

ノートPC上でローカル実行可能

Apache 2.0で商用利用も無償

技術革新と実用性

ハイブリッドアーキテクチャで高効率化

ネイティブマルチモーダル対応

0.8B〜9Bの4モデル構成

企業への影響

エッジ推論でクラウドAPI不要に

文書解析・コード生成など業務自動化に対応

詳細を見る

Alibaba傘下のQwenチームは2026年3月、小型オープンソースモデル「Qwen3.5 Small Model Series」を公開しました。0.8B、2B、4B、9Bの4モデルで構成され、Apache 2.0ライセンスのもとHugging FaceとModelScopeで即日提供が開始されています。

最大の注目点はQwen3.5-9Bの性能です。GPQA ベンチマークで81.7を記録し、13.5倍の規模を持つOpenAIのgpt-oss-120B（80.1）を上回りました。MMMU-Proでも70.1を達成し、Gemini 2.5 Flash-Liteの59.7を大幅に超えています。

技術面では従来のTransformerアーキテクチャから脱却し、Gated Delta NetworksとスパースMixture-of-Expertsを組み合わせたハイブリッド構造を採用しています。これにより推論時のスループット向上と低レイテンシを実現し、小型モデルの「メモリの壁」問題を解消しています。

開発者コミュニティからは強い関心が寄せられています。「M1 MacBook Airで無料で動く」との報告や、ブラウザ上での動画解析が可能との検証結果が共有されました。Baseモデルも同時公開され、企業独自のファインチューニングが容易になった点も高く評価されています。

企業活用の観点では、エッジデバイス上でのUI自動操作、文書解析、コードリファクタリング、モバイルでのオフライン動画要約など幅広い用途が想定されます。クラウドAPIへの依存を減らしコスト削減とデータ主権の確保を両立できる点が、企業導入の大きな推進力となりそうです。

出典：VentureBeat

NVIDIA、MWC前に自律ネットワークとAI-RANの商用化を加速

2026年03月01日 NVIDIA ソフトバンクエコシステムネットワークエンジニア推論ファインチューニングエネルギーエージェント

自律ネットワーク向けAI基盤

Nemotronベースの通信特化LTMを公開

AdaptKey AIと共同で300億パラメータモデル開発

Tech Mahindraと推論ガイドをオープンソース化

RANエネルギー効率のBlueprintを新発表

AI-RANの実環境展開

T-MobileがNokiaと商用環境で実証成功

SoftBankが16層MIMOの業界初達成

IOHが東南アジア初のAI搭載5G通話実現

SynaXGがFR2帯域で世界初のAI-RAN実装

6Gへの布石とエコシステム拡大

AI-RANアライアンスのデモ数が3倍に増加

OCUDU財団に参画しオープンソースRAN推進

77%がAIネイティブ6Gの早期展開を予測

詳細を見る

NVIDIAはMWC Barcelonaに先立ち、通信事業者向けの自律ネットワーク技術とAI-RAN商用化に関する大規模な発表を行いました。自律ネットワーク分野では、Nemotron 3ベースの300億パラメータ通信特化大規模モデル（LTM）をオープンソースで公開しています。

このLTMはAdaptKey AIが業界標準データや合成ログを用いてファインチューニングしたもので、障害の切り分けや修復計画の策定、変更検証といった通信業務の推論が可能です。オンプレミスでの安全な展開にも対応し、事業者が自社データで拡張できる設計となっています。

さらにNVIDIAはTech Mahindraと共同で、ネットワークエンジニアのように推論するAIエージェント構築ガイドを公開しました。VIAVIと連携したRANエネルギー効率化のBlueprintや、Cassava Technologies、NTT DATAによるネットワーク構成Blueprintの商用採用も発表されています。

AI-RAN分野では商用展開が急速に進んでいます。T-MobileはNokiaのCUDA対応RANソフトウェアで商用環境実証に成功し、SoftBankのAITRASは業界初の16層MIMOを達成しました。SynaXGは単一GH200サーバー上で36Gbpsのスループットと10ミリ秒以下のレイテンシを実現しています。

MWC 2026ではAI-RANアライアンスのデモが前年比3倍の33件に拡大し、うち26件がNVIDIA Aerialベースです。NVIDIAはLinux Foundation傘下のOCUDU財団にも参画し、オープンソースRAN開発を通じて次世代無線ネットワークの研究と商用化を加速させる方針です。

出典：NVIDIA公式 | NVIDIA公式

Unsloth×HFでLLM微調整が無料開放へ

2026年02月20日 AI活用エコシステムエンジニア推論ファインチューニング GPU インフラクラウドデプロイ医療中小企業提携基盤モデル Hugging Face LoRA

無料LLMファインチューニングの実現

Hugging Face JobsプラットフォームでUnslothを無料利用可能

高速かつ低メモリなLLMファインチューニングが一般開放

LoRA/QLoRAベースの効率的な訓練手法に対応

GPUアクセスのない研究者・開発者に訓練機会を提供

クラウドコストの民主化でドメイン特化モデルが普及

エコシステムへの影響

ファインチューニングの参入コストが実質ゼロに低下

企業・研究機関がカスタムモデルを低コストで構築可能

Unslothの速度最適化技術がHFのスケールで利用可能に

HFのモデルハブとの統合でデータセット→訓練→公開が一貫

オープンソースファインチューニングエコシステムが強化

詳細を見る

Hugging FaceとUnslothは、Hugging Face Jobsプラットフォームを通じてLLMのファインチューニングを無料で提供するパートナーシップを発表しました。Unslothはその高速化（通常の2〜5倍速）とメモリ効率（最大80%削減）で知られており、これをHFのクラウドインフラと組み合わせることで、GPUを持たない開発者や研究者に訓練機会を開放します。

ファインチューニングの民主化は、AI活用の次のフロンティアを拓きます。汎用的な基盤モデルをドメイン特化させる能力は、医療、法律、製造など特定業界でのAI活用精度を大幅に向上させます。これまでこの作業には高額なGPUクラスターが必要でしたが、今後は個人や中小企業でも実施可能になります。

HuggingFaceにとってこの提携は、モデルハブ（保管）からトレーニング基盤（構築）、さらにはデプロイメントまでをカバーするフルスタックMLプラットフォームとしての地位を強化します。Unslothのユーザーベースを取り込む獲得戦略でもあります。

Unslothの側では、有料の商用サービスへの入口としてHF経由の無料ティアを活用する戦略です。無料で試したユーザーが高度な機能や大規模訓練のために有料プランに移行するフリーミアムモデルを狙っています。

この動きはより広いトレンドの一部です。LLMの推論コストが下がり続ける中、次の競争軸は専用化・個別最適化にシフトしています。ファインチューニングの民主化が進むことで、汎用LLMよりもドメイン特化モデルが主流になる時代が近づいています。

出典：Hugging Face

Qwen 3.5が超大規模モデルを圧倒する効率性

2026年02月18日 Qwen エンジニアファインチューニングオープンウェイト中国日本

小さくて強いモデルの台頭

兆パラメータ超えモデルに勝る

コストは大幅に安価

オープンQwen 3.5の実力

詳細を見る

Alibabaが公開したQwen 3.5は、1兆パラメータを超える巨大モデルと比較しても同等以上の性能を示しており、大規模モデルが必ずしも高性能であるという常識を覆しています。

コスト効率の高さから、エンタープライズでの実運用における費用対効果が期待されます。中国のAI技術力の台頭を改めて示す結果となっています。

Qwen 3.5はオープンウェイトモデルとして公開されており、日本企業を含む世界中の開発者がファインチューニングに活用可能です。

出典：VentureBeat

NVIDIAが日本語特化小型AIモデルを公開

2026年02月17日 NVIDIA AI活用エンジニアファインチューニング日本 Hugging Face

日本語SLMの性能と特徴

Nejumi Leaderboardでトップ性能

10Bパラメータ以下の最先端モデル

オープンモデルとして公開

詳細を見る

NVIDIAは日本語に特化した小規模言語モデル（SLM）「Nemotron 2 Nano 9B Japanese」をHugging Faceで公開しました。Nejumi Leaderboard 4において10Bパラメータ以下のモデルで最先端の性能を達成しています。

このモデルは日本の主権AI（Sovereign AI）戦略を支えるために設計されており、日本語データで特化したファインチューニングが施されています。開発者がモデルをカスタマイズできるよう、データセットやレシピも合わせて公開されます。

日本語対応の高精度AIモデルへの需要が高まる中、NVIDIAの本モデルは日本企業のAI活用を加速させる可能性があります。エッジデバイスやオンプレミス環境での実行も視野に入れた設計です。

出典：Hugging Face

ByteDanceがSeedance 2.0にガードレール追加、ハリウッドの圧力に折れる

2026年02月16日 Sora 動画生成ファインチューニングリスクコンテンツ著作権動画中国 Runway ByteDance

Hollywood対応の内容

Disney・Paramount Skydanceが差し止め請求

著名キャラクター・有名人の再現をブロックへ

ガードレール改修を緊急実施と発表

業界団体も連名で抗議文書を提出

動画AI規制の行方

中国発AI動画モデルに著作権の壁

完全排除は技術的に困難との見方

AI動画ツールに法的リスクが顕在化

ライセンス契約モデルが業界標準に？

詳細を見る

ByteDanceのAI動画生成モデル「Seedance 2.0」に対し、DisneyとParamount Skydanceが差し止め請求書を送付しました。これを受けByeDanceは著名キャラクターや有名人の動画生成をブロックするためのガードレール改修作業を開始しました。

Hollywood業界団体は「AIによるクリップアート化」と批判し、Seedance 2.0が著作権保護されたコンテンツを自由に複製・変形できる状態であることを問題視しています。

技術的には、AIモデルが著作権のある対象を完全にブロックするのは困難です。ガードレールはキーワードベースのフィルタやファインチューニングによる制約によって実装されますが、回避手法も存在します。

この問題はByteDanceだけでなく、Runway、Sora、Klingなど他のAI動画生成ツールにも同様の法的リスクが存在することを示しています。コンテンツライセンスの業界標準整備が急務です。

長期的には、ハリウッドとAI企業の間で、コンテンツ学習データや生成物に対するライセンス料・使用許諾の枠組みが構築される方向に向かうと見られており、Getty Imagesのアプローチが一つのモデルとなっています。

出典：The Verge | Ars Technica

MITが「壊滅的忘却」防ぐ新ファインチューニング手法を開発

2026年02月11日ファインチューニング MIT

技術的ブレークスルー

LLMが既存スキルを失わずに新スキルを習得可能

壊滅的忘却問題への実用的解決策を提示

企業のモデル管理コストを大幅に削減

詳細を見る

MITとImproba Labsの研究者が、LLMに新しいスキルを教えても既存の知識を失わない新しいファインチューニング手法を発表しました。これまでの手法では新タスクへの適応（ファインチューニング）が既存の能力低下（壊滅的忘却）を引き起こすという根本的な課題がありました。

この問題はエンタープライズ向けLLM活用において深刻です。特定業務に特化したモデルを作ろうとすると、汎用的な能力が失われ、結果としてスキルごとに別々のモデルを維持管理する必要が生じていました。

新手法によりこのサイクルが断ち切られれば、企業は単一のモデルを継続的に成長させることができ、モデル管理の複雑さとコストを大幅に削減できます。実用化に向けた検証が今後の焦点となります。

出典：VentureBeat

DatabricksCEO「AIがSaaSを無関係にする」54億ドル達成

2026年02月09日ファインチューニング買収 ARR エージェント Databricks Snowflake SaaS

業績と戦略

Databricksが前年比65%成長で54億ドルARRを達成

AIプロダクトが14億ドル超を占める

SaaSラベルを避け自らをAI企業として位置付け

Mosaic Research買収完了で生成AI能力を強化

「AIがSaaSを無用にする」という大胆な予測を提示

SaaSの将来と産業変革

従来のSaaSビジネスモデルへの構造的脅威

AIエージェントが業務アプリを代替する可能性

データ・AIプラットフォームが主流に

VertexとSnowflakeとの競争が激化

業務システム市場の地殻変動が始まる

詳細を見る

Databricksは月次ARR（年換算経常収益）54億ドルを達成し、前年比65%の成長を報告しました。このうちAIプロダクトが14億ドル超を占めており、同社がAIデータプラットフォームとして市場での存在感を急速に高めていることを示しています。

CEO Ali Ghodsiは、AI時代においてSaaSという括りから積極的に距離を置いています。「我々にとってAIはSaaSの利用を増加させているだけだ」と述べつつ、プライベート市場ではAI企業として評価されることを重要視しています。

Ghodsiの踏み込んだ発言は「AIがSaaSを無関係にする」というものです。AIエージェントが個別のビジネスアプリケーションの機能を代替できるようになれば、何十もの専用SaaSサービスへの契約は不要になる可能性があります。

同社はMosaic Research（旧MosaicML）の買収を完了し、生成AIモデルの訓練・ファインチューニング能力を強化しました。生成AIとデータ統合の組み合わせが同社の差別化戦略の核心となっています。

既存のSaaSベンダーにとっては深刻な脅威を意味するこの予測は、企業のIT予算配分とソフトウェア調達戦略の抜本的な見直しを迫るものです。

出典：TechCrunch

MemRLがファインチューニングなしでRAGを超える

2026年01月22日検索推論強化学習ファインチューニングエージェントベンチマーク RAG

技術の詳細

強化学習ベースのメモリ管理

RAGより複雑な推論で優位

追加学習不要で即時適用

長期記憶を自動的に形成

RAGへの影響

RAGアーキテクチャの限界を示す

ベクタDB依存の代替手法

複雑エージェントへの応用

次世代RAGへの進化

詳細を見る

VentureBeatが報じたMemRL（Memory Reinforcement Learning）は、ファインチューニングなしに強化学習でAIエージェントの記憶を管理し、複雑なベンチマークでRAGを超えた性能を示した。メモリ管理の新アプローチだ。

RAGはベクタDBへの依存と検索精度の限界があるが、MemRLは強化学習によりエージェントが自律的に重要情報の記憶・忘却を管理するため、より柔軟だ。

エンタープライズでのAIエージェント展開において、MemRLのアプローチが既存RAGシステムの代替または補完技術として注目される。

出典：VentureBeat

強化学習は表現深度なしに頭打ち、新研究が明らかにした重要な知見

2026年01月17日 ChatGPT Claude 強化学習ファインチューニングスケーリング則エージェント基盤モデル RLHF

研究の主要発見

表現の深さがRLの限界を決定

単純な報酬設計だけでは不十分

特徴抽出層の品質が鍵

マルチタスク学習で改善の余地

スケーリング則とは異なる知見

実践的な示唆

エージェント設計への応用

アーキテクチャの再考が必要

ファインチューニング戦略に影響

RLHFの限界も示唆

基盤モデルの選択が重要

詳細を見る

新しい研究によると、強化学習(RL)は表現の深さ（representation depth）が不十分な場合に性能が頭打ちになることが明らかになりました。これはAIエージェントの設計において重要な知見です。

従来の研究が報酬設計やアルゴリズムの改善に注目してきた中で、本研究は特徴抽出の質こそが強化学習の性能を決定的に左右することを示しています。

この知見はRLHF（人間フィードバックによる強化学習）を用いるChatGPTやClaudeなどのLLM改善にも重要な示唆を与えます。基盤となるモデルの表現能力が上限を決める可能性があります。

AIエージェントの自律性向上に取り組む研究者にとって、今後のアーキテクチャ設計の指針となる成果として注目されています。

出典：VentureBeat

シンプルなプロンプト技法でLLM精度を最大76%向上できることが判明

2026年01月13日エンジニアファインチューニングプロンプト

手法の詳細と効果

特定のプロンプト構造で精度76%向上

モデル選択より有効なケースも

追加コストなしで実装可能

複数のモデルで効果を確認

プロンプトエンジニアリングの実践的価値

詳細を見る

新しい研究により、特定のプロンプト技法を使用するだけでLLMの精度が最大76%向上することが示されました。この手法は高価なモデルへの移行やファインチューニングなしに、既存モデルの能力を大幅に引き出すことができます。

この発見はAIシステムの最適化においてプロンプト設計が持つ重要性を改めて実証しています。コスト効率の観点から、モデルのアップグレードより先にプロンプト最適化に取り組むことが合理的なアプローチである場合が多いことが確認されています。

出典：VentureBeat

テスト時学習でAIがコストを抑えながら継続学習を実現

2026年01月06日 NVIDIA カスタマーサポート推論ファインチューニングデプロイスタンフォードエージェント

Test-Time Trainingの革新性

スタンフォード大とNvidiaの研究者が新手法を提案

推論コストを増やさずにデプロイ後も学習継続

既存の継続学習の問題「破滅的忘却」を回避

エンタープライズAIエージェントへの応用を想定

動的なデータに対応できる柔軟なモデルを実現

テスト時の追加学習で性能を逐次改善

実務への応用可能性

継続学習の新しいアプローチとして業界注目

カスタマーサポート・コード生成などの用途に有効

モデルの更新コストを大幅に削減できる可能性

ファインチューニングに代わる軽量な学習手法

本番環境でのリアルタイム適応を実現

研究から実装への道筋が示された画期的な成果

詳細を見る

スタンフォード大学とNvidiaの研究チームは、テスト時学習（Test-Time Training）という新しい継続学習手法を発表しました。AI モデルがデプロイ後も推論を行いながら学習を続けられる仕組みで、従来のファインチューニングと異なり追加の推論コストが発生しないことが特徴です。

この手法が解決する重要な問題は「破滅的忘却」です。通常、AIモデルに新しいデータを学習させると過去の知識が失われてしまいますが、この新手法ではその問題を回避する仕組みが組み込まれています。

エンタープライズAIエージェントにとっては特に重要な技術で、顧客データや業務データの変化に継続的に適応できるAIシステムの構築が現実的になります。研究段階ではありますが、商用展開への道筋を示した成果として業界から高い注目を集めています。

出典：VentureBeat

Nvidia DGX Spark・DGX StationとBlueFieldがエンタープライズAIを刷新

デスクトップAIスーパーコンピューターの登場

DGX Sparkがデスクトップサイズで最先端モデルを動作

DGX Stationが研究・開発チーム向けの高性能版

オープンソース・フロンティアモデル双方に対応

クラウド依存なしのオンプレミスAI実現

NvidiaとHugging Faceが連携してエージェント展開

Reachy Miniロボットとのエージェント統合デモ

BlueFieldによるセキュリティと加速

BlueField DPUがAIファクトリーのネットワークを保護

ゼロトラストセキュリティをハードウェアレベルで実現

ネットワーク・ストレージ・セキュリティを統合処理

エンタープライズAIファクトリーの標準構成に

サイバー攻撃への耐性強化が大企業の要件

CPUオフロードで主処理の効率が大幅向上

詳細を見る

NvidiaはCES 2026でDGX SparkとDGX Stationという2つのオンプレミスAIコンピューティング製品を発表した。DGX Sparkはデスクトップサイズながら最先端のAIモデルをローカルで実行できる製品で、研究者・開発者・中小企業のAI活用を民主化する。

Hugging Faceとの連携により、DGX Spark上でオープンソースモデルを即座にデプロイし、エージェント型AIアプリケーションを構築できる。Reachy Mini（ロボット）をDGX Sparkで制御するデモは、AIエージェントが物理世界に接続される未来を示した。

DGX Stationは研究チームや企業のAI開発部門向けに設計された、より高性能な版だ。フロンティアモデルのファインチューニングや大規模推論をクラウドなしで実行できることで、データプライバシーと低遅延を両立する。

BlueField DPUはエンタープライズAIファクトリーのネットワークセキュリティと加速の要として位置づけられている。AIインフラへのサイバー攻撃が増加する中、ハードウェアレベルでのゼロトラストセキュリティ実装が大企業の重要要件となっている。

DGX SparkとBlueFieldを組み合わせることで、エッジからデータセンターまで一貫したNvidia エコシステムを構築できる。これは企業がクラウドプロバイダーへの依存を減らしながら、AI能力を高めるという二律背反を解消する重要なアーキテクチャとなっている。

出典：NVIDIA公式 | Hugging Face | NVIDIA公式

Qwen-Image-2512、Nano Banana Proに対抗するOSS画像生成の本命に

2025年12月31日 Google Gemini Nano Banana Qwen エコシステム画像生成エンジニア推論ファインチューニングクラウド画像中国スタートアップ

Qwen-Image-2512の実力

Google Nano Banana Proに対抗できる品質

オープンソースで自由に利用・改変が可能

テキストと画像の統合理解能力が高評価

Gemini 3 Proベースのプロプライエタリ製品に迫る

Fal版Flux 2と並ぶ年末の重要リリース

研究者・開発者コミュニティから高い評価

オープンソース画像生成の意義

プロプライエタリ一強体制に対抗軸が登場

商用利用の自由度が採用を後押し

Googleへの依存なしに高品質生成が可能に

ファインチューニングで独自モデル作成が容易

コスト面でもクラウドAPI不要で大幅削減

中国AI研究の実力を世界に示す一手

詳細を見る

アリババが開発したQwen-Image-2512がリリースされ、GoogleのNano Banana Pro（Gemini 3 Pro Imageベース）に対抗できる品質をオープンソースで提供するモデルとして注目を集めています。

Nano Banana Proは11月のリリース後、画像生成AIの基準を大幅に引き上げたと評価されていました。Qwenチームはこれを受けて独自の画像・テキスト統合モデルを開発し、推論能力と画像品質の両立で高い評価を得ています。オープンソースであることが最大の差別化です。

商用利用の自由度と自由なカスタマイズ性は、特にスタートアップや研究機関にとって大きな利点です。Googleに料金を支払うことなく同等品質の画像生成APIを構築できることは、エコシステム全体の民主化を促します。

2025年末時点で画像生成AI市場は三つ巴になりました。Google Nano Banana Pro、Fal最適化Flux 2、そしてQwen-Image-2512——それぞれが異なる価値提案を持つ健全な競争環境が整いつつあります。中国発オープンソースの存在感は2026年さらに高まるでしょう。

出典：VentureBeat

AIコーディングエージェントの仕組みと開発者が知るべき注意点

2025年12月24日 Google OpenAI Anthropic Claude 生産性ネットワークエンジニア推論ファインチューニング推論モデルリスクハルシネーションコーディングエージェントプロンプトコンテキスト RLHF

エージェントの構造と動作原理

LLMを核心としたパターンマッチング型推論エンジン

監督LLMが並列サブエージェントにタスクを割り振る階層構造

RLHFによるファインチューニングで指示追従能力を向上

「文脈収集→行動→検証→繰り返し」のサイクルで動作

シミュレーテッド推論モデルが出力精度を高める補助技術

Claude・OpenAI・Googleが代表的なコーディングエージェント製品

開発者が陥りやすい落とし穴

LLMは確率的補完であり決定論的ではない本質的制約

複雑プロジェクトでは単純化より複雑化するリスク

共偽造エラー（ハルシネーション）が不適切な推論で発生

人間の監督なしで数時間動作できるが完全信頼は禁物

ホワイトボックスアクセス欠如が出力検証を困難に

適切な使いどころの見極めが生産性向上の鍵

詳細を見る

AIコーディングエージェントの中核にあるのは大規模言語モデル（LLM）であり、膨大なテキストデータと大量のプログラミングコードで学習したニューラルネットワークです。プロンプトに基づき、学習時に圧縮された統計的表現を「引き出す」パターンマッチングマシンとして機能します。

OpenAI・Anthropic・Googleのコーディングエージェントは、複数のLLMをリンクさせたプログラムラッパーです。監督LLMがユーザーのタスクを解釈し、並列に動作する複数のサブLLMに割り振り、それらがソフトウェアツールを使って実行する階層構造を持ちます。

Anthropicのエンジニアリングドキュメントでは「文脈収集→行動→作業検証→繰り返し」というパターンが説明されており、この反復サイクルがエージェントの自律的な作業遂行を可能にしています。

最近の革新としてシミュレーテッド推論モデルがあり、推論スタイルのテキストを生成してコンテキストを拡張することでLLMがより正確な出力に到達できるよう補助します。精度向上に貢献する一方、計算コストも増大します。

コーディングエージェントは数時間にわたってソフトウェアプロジェクトに取り組み、完全なアプリを書き、テストを実行し、バグを修正できますが、魔法のツールではありません。理解せずに使えばプロジェクトを複雑化させるリスクがあります。

開発者にとって重要なのは、LLMが本質的にパターンマッチングエンジンであり、推論の誤りが生じることを理解した上で、適切な使いどころを見極めることです。いつ・どのように使うべきかを知ることが生産性向上の鍵となります。

出典：Ars Technica

LLM訓練の新知見：バイト列モデルとエンタープライズ学習の教訓

2025年12月15日エコシステム GPT-5 推論強化学習ファインチューニングリスクインフラポリシー韓国スタートアップコンテキストベンチマーク

Ai2が公開したバイト列言語モデル「Bolmo」の概要と特徴

Allen Institute for AIがBolmo 7BとBolmo 1Bを発表

既存のOlmo 3チェックポイントを「バイト化」する2段階訓練アプローチ

トークナイザー不要でUTF-8バイトを直接処理する設計

多言語・ノイズ耐性・エッジ展開に適したオープンバイト列モデル

CUTE・EXECUTEなどの文字ベンチマークでOlmo 3ベースモデルを上回る性能

チェックポイント・コード・論文をすべて公開し再現可能なブループリントを提供

韓国スタートアップMotifが示すエンタープライズLLM訓練の4つの教訓

Motif-2-12.7Bが独立ベンチマークで通常版GPT-5.1を上回る成績を記録

合成推論データは生成元の推論スタイルが一致しないと性能を逆に低下させる

64Kコンテキスト訓練はハイブリッド並列・アクティベーションチェックポイントを前提とする設計が必須

RLFT（強化学習ファインチューニング）は難易度フィルタリングと軌跡の再利用で安定化

メモリがボトルネックとなるためカーネルレベルの最適化が訓練の可否を左右

訓練設計の規律こそが推論性能を決定するとarXiv論文で実証

詳細を見る

Allen Institute for AI（Ai2）は、トークナイザーを使わずにUTF-8バイト列を直接処理するバイト列言語モデルの新ファミリー「Bolmo」を公開しました。Bolmo 7BとBolmo 1Bの2モデルを提供しており、同社はこれらを「初の完全オープンなバイト列言語モデル」と位置付けています。

Bolmoの訓練は既存のOlmo 3チェックポイントを流用する2段階方式を採用しています。第1段階では変換器本体を凍結してローカルエンコーダ・デコーダと境界予測器のみを98億トークンで訓練し、第2段階でモデル全体を解凍してさらに学習させます。ゼロから訓練するよりも大幅にコストを削減できます。

バイト列モデルはスペルミスや低資源言語、非標準テキストに強く、モデレーション・エッジ展開・多言語アプリケーションに適しています。Ai2はチェックポイント・コード・論文をすべて公開しており、組織が独自のバイト列モデルをOlmoエコシステム上に構築できる再現可能なブループリントを提供しています。

韓国のAIスタートアップMotif Technologiesは、12.7Bパラメータの推論特化モデル「Motif-2-12.7B-Reasoning」を公開し、独立ベンチマーク機関Artificial Analysisにより韓国発モデルとして最高性能と認定されました。通常版GPT-5.1をも上回る結果が注目を集めています。

Motifがarxivで公開した白書には、エンタープライズチームがLLM訓練で直面する課題への実践的な教訓が詳述されています。特に重要なのは、フロンティアモデルで生成した合成データが必ずしも転用可能ではないという点です。推論トレースの形式・冗長性・ステップ粒度が目標モデルと一致しないと、性能が低下することが実測で示されています。

長コンテキスト訓練については、トークナイザーや保存処理の調整だけでは対応できず、ハイブリッド並列化とシャーディング戦略、積極的なアクティベーションチェックポイントを訓練スタック設計の段階から組み込む必要があります。後付けで長コンテキスト対応を追加しようとすると、再訓練の高コストや不安定なファインチューニングを招くリスクがあります。

強化学習ファインチューニング（RLFT）は、難易度フィルタリングなしに報酬訓練をスケールさせると性能退行やモード崩壊が起きやすいとMotifは指摘しています。通過率が特定範囲内のタスクのみを選別し、軌跡の複数ポリシー間での再利用とクリッピング範囲の拡大により訓練の安定性を確保しています。

メモリ制約はコンピュート以上に訓練の可否を左右することが多いとMotifは強調しています。カーネルレベルの損失関数最適化によってRLのメモリ圧力を軽減する手法は、共有クラスターや規制対応環境で独自LLMを構築する企業にとって特に参考になります。

両記事が共通して示すのは、LLM訓練の競争優位がモデル規模だけでなく、訓練設計・データ整合・インフラ選択という地道な工学的判断に宿るという点です。Ai2とMotifのいずれもオープンな情報公開を通じてコミュニティに再現可能な知見を提供しており、エンタープライズAIチームの実務判断に直結する内容となっています。

出典：VentureBeat | VentureBeat

AIエージェント構築・検証・微調整の最前線

2025年12月15日 NVIDIA LangChain Replit アシスタント CRM 推論ファインチューニング GPU インフラ品質保証エージェントベンチマーク MCP Hugging Face LoRA

自律エージェントの精度を高める新アプローチ

ReplitのAgent 3がREPLベース検証で200分以上の自律動作を実現

ブラウザ自動化とコード実行を組み合わせ「見せかけ実装」を自動検出

IBM製オープンソースフレームワークCUGAがHugging Face Spacesに統合

AppWorldベンチマーク1位・WebArena上位を達成した設定可能な汎用エージェント

プランナー／エグゼキューター分離とコードアクト方式で幻覚を抑制

MCP・OpenAPI・LangChain対応のマルチツール連携機能を提供

エージェントAIを支えるデータ基盤と軽量ファインチューニング

Twilioレポートで54%の消費者がAIの文脈保持の欠如を指摘

会話型AIには静的CDPではなくリアルタイム会話メモリが必要と提言

NVIDIAがNemotron 3ファミリーをエージェントAI微調整向けに発表

Unslothを使い低メモリNVIDIA GPUでLoRA/QLoRAによる効率的なファインチューニングが可能

詳細を見る

ReplitはAgent 3の開発において、コードが「動いているように見えるだけ」の問題、いわゆる「ポチョムキン実装」に悩まされてきました。この課題を解決するためREPL（対話型実行環境）とブラウザ自動化を組み合わせた独自の検証システムを構築し、エージェントが生成したコードを実際に実行・操作して機能の実在性を確認できるようにしました。

この仕組みによりAgent 3は200分以上にわたって自律的にタスクを継続でき、単に見た目を整えるだけの実装を自動的に検出・修正するサイクルを回せるようになりました。自己テスト型の検証ループはエージェントの品質保証に新たな基準を示しています。

IBMが開発したCUGA（Configurable Generalist Agent）はオープンソースの汎用AIエージェントフレームワークです。AppWorldベンチマークで1位、WebArenaでも上位を記録しており、WebやAPIを跨ぐ複雑なマルチステップタスクを高い精度でこなします。

CUGAは現在Hugging Face Spacesに統合され、オープンモデルと組み合わせて誰でも試せる環境が整いました。推論モードをコスト・レイテンシに応じて切り替えられる柔軟な設計が特徴で、MCP・OpenAPI・LangChain経由の多様なツール連携にも対応しています。

Twilioの調査によると、消費者の54%が「AIは過去のやりとりをほとんど覚えていない」と感じており、AIから人間担当者へ引き継がれる際に全文脈が共有されると答えたのはわずか15%でした。エージェントAIが真に機能するには、リアルタイムで携帯可能な会話メモリが不可欠です。

この問題を解決するには、従来のCRMやCDPを使い続けるのではなく、会話メモリをコミュニケーションインフラの内部に組み込む必要があると指摘されています。Twilioはこうした次世代の顧客データ基盤の構築を推進しています。

NVIDIAはNemotron 3ファミリーを発表し、エージェントAIの微調整に最適化されたオープンモデルとライブラリを提供しました。GeForce RTXラップトップからDGX Sparkまで幅広いNVIDIA GPUで動作します。

Unslothを使ったLoRA/QLoRAによるファインチューニングは、フルパラメータ更新より少ないメモリと時間でモデルを特定タスクへ特化させる手法です。製品サポートや個人アシスタントなどの用途で小型言語モデルの精度を高める実用的なアプローチとして注目されています。

出典：Hugging Face | blog.replit.com | VentureBeat | NVIDIA公式

Codex、HF Skills連携でOSSモデル訓練可能に

2025年12月11日 OpenAI Claude Claude Code Codex エンジニアファインチューニングインフラコーディングエージェントオープンソースモデル Hugging Face

統合の機能

ファインチューニングとRL整合

トレーニングメトリクスの監視

チェックポイント評価と報告作成

GGUF量子化とHub公開

意義と展望

Claude Codeに続く統合

AGENTS.mdでリポジトリ設定

コーディングエージェントとMLOpsの融合

OSS開発の民主化に貢献

詳細を見る

Hugging Faceが、OpenAIのコーディングエージェント「Codex」にHugging Face Skillsリポジトリを統合しました。先行してClaude Codeで実現された機能に続くもので、Codexがオープンソースモデルの訓練から公開まで一連のMLタスクを実行できるようになります。

HF Skillsにより、Codexは言語モデルのファインチューニング、RL整合の適用、Trackioからのリアルタイムメトリクス監視、チェックポイント評価、実験レポート作成、GGUF量子化、Hugging Face Hubへの公開が可能です。AGENTS.mdファイルによるリポジトリレベルの設定に対応しています。

この統合は、コーディングエージェントとMLOpsプラットフォームの融合における重要な進展です。ソフトウェア開発とML エンジニアリングの壁を低くし、専門的なMLインフラの知識がないチームでもオープンソースモデル開発に取り組める環境の実現に貢献します。

出典：Hugging Face

倉庫の重労働をAIロボで解放、MIT発「Pickle」の挑戦

2025年12月05日ネットワーク創業者投資家機械学習ファインチューニングハードウェア動画ロボットスタートアップ MIT 投資 YouTube

生成AI搭載の自律ロボ

MIT発、生成AIと機械学習を実装

最大50ポンドの荷物を自律的に荷下ろし

導入初日から稼働、学習し性能が向上

現場課題からピボット

倉庫の高離職率に着目し事業転換

既存アーム活用で開発コストを抑制

UPSやリョービなど大手企業が導入

詳細を見る

2025年12月、MIT発のスタートアップ「Pickle Robot Company」が物流業界の注目を集めています。同社は生成AIと機械学習を駆使した自律型ロボットにより、物流倉庫における過酷な荷下ろし作業を自動化しました。UPSやRyobi Toolsなどの大手企業で導入が進み、深刻な人手不足と高い離職率という業界の構造的課題の解決に貢献しています。

同社の技術的な強みは、高度なソフトウェアと既存ハードウェアの賢明な融合にあります。独KUKA社製の産業用アームに独自のセンサーやAIを搭載し、最大50ポンド（約23kg）の荷物を処理します。生成AIモデルのファインチューニングにより、多様な環境に即応しつつ、稼働しながら性能を高める仕組みを構築しました。

創業者のAJ Meyer氏らは当初、仕分けロボットを開発していましたが、資金難に直面し方針転換を余儀なくされました。現場観察で「90日以内に全員が辞める」という過酷な荷下ろし現場の実態を知り、事業をピボットします。YouTubeに投稿した概念実証動画が大きな反響を呼び、投資家と顧客を呼び戻して再起を果たしました。

今後は荷下ろしに加え、積み込み作業や他社製ロボットとの連携プラットフォーム開発も視野に入れています。鉱山から玄関先まで、サプライチェーン全体の自動化を指揮する「ネットワークの構築」を目指し、同社は事業拡大を加速させています。

出典：MIT News

AIデータMicro1が年商1億ドル突破　専門家活用でScale猛追

2025年12月04日 OpenAI マイクロソフト Meta Mercor AI活用業務効率 AI採用エンジニア専門家ファインチューニングロボットスタートアップスタンフォードハーバード ARR エージェント Scale AI

爆発的な収益成長

年初700万ドルから1億ドルへ急拡大

Microsoftなど大手ラボと取引

独自の専門家確保術

AI採用技術で高度人材を即時確保

博士号保持者等が時給100ドルで参加

新市場への戦略的拡大

企業のAIエージェント評価へ参入

ロボット向け実演データの収集開始

詳細を見る

AI学習データ作成を手掛ける米スタートアップのMicro1が、年間経常収益（ARR）1億ドルを突破しました。年初の約700万ドルからわずか1年で急激な成長を遂げており、Scale AIなどの競合がひしめく市場において、その存在感を急速に強めています。

創業3年の同社を率いるのは24歳のアリ・アンサリ氏です。成長の鍵は、ドメイン専門家を迅速に採用・評価する独自の仕組みにあります。もともとエンジニア採用AIとして開発された技術を転用し、高度な専門知識を持つ人材を効率的に確保することで差別化を図っています。

登録する専門家にはハーバード大学の教授やスタンフォード大学の博士号保持者も含まれ、時給100ドル近くを得るケースもあります。高品質なデータへの需要は旺盛で、アンサリ氏は人間の専門家によるデータ市場が、2年以内に1000億ドル規模へ拡大すると予測しています。

業界最大手Scale AIを巡る環境変化も追い風となりました。報道によると、Metaとの接近を背景にOpenAIなどがScale AIとの関係を見直したとされ、これによりMercorやSurgeといった新興ベンダーへの需要分散が加速しています。

今後の注力分野として、非AIネイティブ企業による社内業務効率化のためのAIエージェント構築を挙げています。企業のモデル導入には体系的な評価とファインチューニングが不可欠であり、同社はこの「評価プロセス」への予算配分が急増すると見込んでいます。

さらに、ロボット工学向けのデータ収集にも着手しました。家庭内での物理的なタスクを人間が実演するデータを集め、世界最大規模のデータセット構築を目指しています。LLMだけでなく、物理世界でのAI活用も視野に入れた戦略的な事業拡大が進んでいます。

出典：TechCrunch

Claudeが自律的にLLM学習実行、HF新機能公開

2025年12月04日 Claude 生産性数学エンジニアファインチューニングリスク GPU ハードウェアインフラクラウドデプロイエージェント教師 Hugging Face GRPO

指示だけで学習工程を完結

自然言語でファインチューニングを指示

最適なGPU選定とコスト試算を自動化

データセット検証からデプロイまで代行

実用的な学習手法を網羅

SFT・DPO・GRPOなど主要手法に対応

ローカル利用向けのGGUF形式への変換

学習進捗をリアルタイム監視可能

詳細を見る

Hugging Faceは2025年12月4日、AIエージェント「Claude」などがLLMのファインチューニングを自律的に実行できる新機能「Skills」を発表しました。エンジニアはチャットで指示するだけで、複雑な学習プロセスを完結できます。

本機能はスクリプト作成に留まらず、クラウド上のGPU確保からジョブ送信、進捗監視、モデルのアップロードまでを自動化します。データセットの形式チェックや、モデル規模に応じた最適なハードウェア選定もAIが代行し、失敗リスクを低減します。

対応手法は、一般的な「SFT（教師あり微調整）」に加え、人間の好みを反映する「DPO」、数学やコード生成に有効な「GRPO」など多岐にわたります。実運用レベルの高度なモデル開発が、対話インターフェースを通じて手軽に実行可能になります。

利用にはHugging FaceのPro以上のプランが必要です。開発者はインフラ管理の時間を節約でき、AIモデルのカスタマイズやローカル環境向けの軽量化（GGUF変換）を、低コストかつ迅速に試行錯誤できるようになり、生産性が大幅に向上します。

出典：Hugging Face

AWS、AI開発の知識を動的ロード。コストと精度を改善

2025年12月04日 Stripe AWS 生産性アシスタントエンジニアファインチューニングコーディング開発ツールプロンプトコンテキスト Cursor Figma

AI開発が抱える「文脈の罠」

ツール連携でトークンを大量浪費

不要な情報でAIの回答精度が低下

「Kiro powers」の解決策

文脈に応じて知識を動的にロード

StripeやFigmaなど9社と連携

不要な情報を捨てコスト最小化

経営的インパクトと展望

高額なファインチューニング不要

他ツールへの展開も見据えた戦略

詳細を見る

米アマゾン・ウェブ・サービス（AWS）は年次会議「re:Invent」にて、AI開発支援の新機能「Kiro powers」を発表しました。これはAIコーディングアシスタントが外部ツールと連携する際、必要な専門知識だけを動的に読み込む仕組みです。従来の手法で課題となっていたトークンの浪費や応答精度の低下を防ぎ、開発者の生産性とコスト効率を劇的に高める狙いがあります。

昨今のAI開発では、決済やDBなどの外部ツールを連携させる際、開始時にすべてのツール定義を読み込むのが一般的でした。しかしこれには、コードを書く前に数万トークンを消費してしまう重大な欠点があります。結果としてコストが嵩むだけでなく、無関係な情報がノイズとなり、AIの判断を鈍らせる「コンテキスト腐敗」を引き起こしていたのです。

Kiro powersはこの問題を、コンテキストの「オンデマンド化」で解決します。開発者が「決済」について尋ねればStripeの知識を、「データベース」と言えばSupabaseの知識を自動的に呼び出します。不要な情報はメモリから消去されるため、AIは常に最適な情報量で稼働し、回答精度と速度が向上します。AWSはこのアプローチを「何を忘れるべきかを知る賢さ」と位置づけています。

ローンチパートナーにはStripe、Figma、Datadogなど有力テック企業9社が名を連ねました。これにより、高度なスキルを持つエンジニアしか行えなかった「最適なプロンプト設定」や「ツール連携の最適化」が、誰でもワンクリックで利用可能になります。特定のサービスのベストプラクティスがパッケージ化され、即座に開発環境へ適用される「専門性の民主化」が進むでしょう。

特筆すべきは、この手法が高額なモデルのファインチューニングよりも安価で実用的である点です。企業は最新の高性能モデルを利用しながら、必要な専門性だけを外付けで追加できます。現在はAWSの「Kiro IDE」専用ですが、将来的にはCursorなど他のAIエディタとの互換性も目指しており、開発ツール市場全体の標準化を主導する構えです。

出典：VentureBeat

Mistral 3始動：エッジ特化と効率性で描くAIの分散未来

2025年12月02日 NVIDIA 創業者推論ファインチューニングクラウド画像ドローン Mistral

全方位の「Mistral 3」

旗艦と小型の計10モデルを一挙公開

商用利用可能なApache 2.0ライセンス

現場で動く「エッジAI」

PCやドローンで動く高効率・小型モデル

企業の9割は微調整モデルで解決可能

巨大テックとの差別化

規模より総所有コストとデータ主権重視

NVIDIA等と連携し分散型知能を推進

詳細を見る

仏Mistral AIは2日、新モデル群「Mistral 3」ファミリーを発表しました。フラッグシップ機とエッジ向け小型モデルを含む計10種を展開。巨大テックの大規模化競争とは一線を画し、コスト効率と実用性を武器にビジネスAIの覇権を狙います。

最上位の「Large 3」は、画像とテキストを統合処理し多言語にも対応します。MoEアーキテクチャにより410億のアクティブパラメータを効率制御。NVIDIA最新基盤との連携で、前世代比10倍の推論性能と長文脈の理解を実現しました。

真の革新は小型モデル群「Ministral 3」にあります。PCやドローン等のエッジデバイスでオフライン動作が可能。30億〜140億パラメータの軽量設計で、汎用巨大モデルに代わる高速で安価な選択肢を、現場レベルで提供します。

創業者は「企業の課題の9割は、調整済みの小型モデルで解決できる」と断言します。高価なクラウドAIに依存せず、自社データでファインチューニングすることで、特定業務においては巨大モデルを凌駕する成果と大幅なコスト削減が可能になります。

この戦略は、機密保持が必須の産業や通信制限がある現場に最適です。同社は「分散型インテリジェンス」を掲げ、単なる性能競争から、データ主権と実運用性を重視するフェーズへと、AI市場の潮目を変えようとしています。

出典：TechCrunch | VentureBeat | NVIDIA公式 | vercel.com

AWS、自社データで「特化型AI」を創る新基盤を発表

2025年12月02日 AWS エコシステム専門家推論ファインチューニング推論モデルインフラクラウドコンテンツ音声エージェントベンチマーク基盤モデル Reddit

特化型AI構築サービス

独自データを学習過程に注入可能

ファインチューニングの限界を突破

開発コストと時間を大幅削減

新モデル「Nova」4種

高コスパな推論モデル「Lite」

複雑なタスク処理の「Pro」

音声・マルチモーダルも網羅

AWSのAI戦略

数値性能より実用性を重視

Reddit等が導入を開始

詳細を見る

米AWSは2日、新基盤モデル「Nova」と、企業が自社データで特化型AIを構築できる「Nova Forge」を発表しました。単なる性能競争から脱却し、ビジネス現場での「実用性」と「カスタマイズ」を最優先する戦略を鮮明にしています。

目玉の「Nova Forge」は、学習の初期段階から独自データを注入できる点が画期的です。既存モデルの微調整で起きがちな知識の消失を防ぎつつ、ゼロからの開発より低コストで、自社ビジネスに特化した「専門家モデル」を構築できます。

既にRedditが導入し、過去の投稿データを学習させた自社専用モデルを開発しました。汎用モデルでは理解が難しいコミュニティ特有の文脈やルールをAIに習得させ、コンテンツ管理の自動化と精度向上という実利を得ています。

同時発表の「Nova」モデル群は、高速な「Lite」や複雑な推論が得意な「Pro」など4種です。これらは他社とのベンチマーク競争よりも、コスト効率やエージェント機能としての使いやすさに主眼を置いた設計となっています。

AWS幹部は「ベンチマークは現実を反映していない」とし、数値上の性能より企業が制御可能なインフラとしての価値を強調します。AI開発の民主化を通じて顧客をエコシステムに定着させ、クラウド市場での優位性を盤石にする狙いです。

出典：WIRED | TechCrunch | VentureBeat | The Verge | WIRED

Ai2が「Olmo 3」公開、完全透明性と推論力で企業支援

2025年11月20日 Google OpenAI Qwen Llama 推論ファインチューニングエネルギープライバシーデバッグ中国 CoT

完全な透明性と操作性

学習データや過程を完全公開

企業独自のカスタマイズが容易

商用可能なApache 2.0採用

推論能力と効率の向上

思考過程が見えるThinkモデル

計算効率が従来の2.5倍に向上

LlamaやQwenに対抗する性能

詳細を見る

非営利AI研究機関のAi2は、完全な透明性を備えた最新LLMファミリー「Olmo 3」を公開しました。企業が求めるデータプライバシーと制御性を重視し、学習データからチェックポイントまで全てオープンソースとして提供します。

ラインナップは、高度な推論を行う「Think」、基盤となる「Base」、指示追従に優れた「Instruct」の3種です。特にThinkモデルは、推論プロセス（思考の連鎖）を明示的に出力できる初の完全オープンな32Bモデルとなります。

最大の特徴は、ブラックボックス化が進む商用AIに対する透明性の確保です。GoogleやOpenAIが推論過程を隠す傾向にある中、Olmo 3は企業がモデルの挙動を完全に把握し、デバッグや監査を行うことを可能にします。

企業ごとのカスタマイズ性も大幅に強化されました。「万能な解決策はない」という思想のもと、主要な学習段階ごとのチェックポイントを提供し、企業が自社データを追加して再学習（ファインチューニング）しやすい設計となっています。

性能面では、メタのLlama 3.1や中国のQwenに対抗しうると主張しています。特に計算効率は従来比で2.5倍に向上しており、より少ないコストとエネルギーで高性能な推論処理を実現している点が強みです。

出典：VentureBeat

MS Phi-4の成功、鍵は「データ第一」主義

2025年11月17日 OpenAI マイクロソフト数学推論強化学習ファインチューニングリスクコーディング

「小が大を討つ」新常識

140億パラメータで巨大モデル超え

量より質を重視したデータ戦略

厳選された140万件のデータで学習

Phi-4の「賢い学習法」

モデル能力の限界を突く事例を厳選

ドメイン毎に最適化し後で統合

自動検証しやすい合成データを活用

企業が応用できる実践術

まず小規模実験で手法を確立

確立後に大規模学習へ移行

詳細を見る

Microsoftが開発した140億パラメータのAIモデル「Phi-4」が、はるかに大規模な競合モデルを凌駕する性能を示し、注目を集めています。その成功の鍵は、モデルの規模ではなく「データ第一」という緻密なファインチューニング手法にありました。このアプローチは、リソースが限られる企業でも高性能AIを開発できる可能性を示唆しています。

Phi-4の画期的な点は、AI開発における「量より質」への転換を証明したことです。従来の大規模化競争とは一線を画し、厳選されたわずか140万件の学習データを使用。これにより、OpenAIの「o1-mini」などを多くの推論タスクで上回り、AI開発の新たな方向性を示しました。

成功の核心は、学習データの戦略的な選別にあります。Phi-4のチームは、モデルの能力の限界ギリギリにある「教えがいのある」事例に焦点を当てました。簡単すぎる問題や難解すぎる問題は意図的に排除し、一つ一つのデータから得られる学習効果を最大化する手法を徹底したのです。

また、ドメイン別の最適化も成功要因の一つです。数学やコーディングといった専門分野ごとにデータを個別にチューニングし、その後で統合する「追加的アプローチ」を採用。これにより、各分野の性能を損なうことなく、効率的にモデルの能力を積み上げることに成功しました。

さらに、検証が難しいタスクには「合成データ」を活用しました。例えば、抽象的な証明問題を答えが明確な数値問題に書き換えることで、自動検証を容易にしています。この工夫が、強化学習の効率を飛躍的に高め、モデルの推論能力を確かなものにしました。

Phi-4が示す手法は、多くの企業にとって実践的な指針となります。まずは特定ドメインで小規模な実験を重ね、有効な手法を確立する。その後に本格的な学習へ移行する二段階戦略は、リスクを抑えつつ成果を出すための賢明なアプローチと言えるでしょう。AI開発は、もはや巨大IT企業の専売特許ではないのです。

出典：VentureBeat

Google新手法、小規模AIで複雑な推論を実現

2025年11月14日 Google 数学専門家推論強化学習ファインチューニングエージェントベンチマーク教師

新手法SRLの核心

専門家の思考を段階的に学習

結果だけでなくプロセスを評価

ステップごとの報酬で密な指導

模倣と強化学習の長所を融合

実証された高い効果

数学問題で性能3%向上

開発タスクで解決率74%改善

推論コストを増やさず性能向上

小規模モデルの活用範囲を拡大

詳細を見る

Google Cloudとカリフォルニア大学ロサンゼルス校（UCLA）の研究者らが、小規模なAIモデルでも複雑な多段階の推論タスクを学習できる新手法「監視付き強化学習（SRL）」を発表しました。この手法は、専門家の問題解決プロセスを段階的な「アクション」として捉え、ステップごとにフィードバックを与えることで、従来の手法が抱えていた学習効率の課題を克服します。

これまでのAIの推論能力向上は、最終結果のみを評価する強化学習（RLVR）や、専門家の思考を完全に模倣する教師ありファインチューニング（SFT）が主流でした。しかし、RLVRは途中で間違いがあると学習が進まず、SFTは訓練データに過剰に適合する「過学習」が課題でした。特に小規模モデルでは、これらの手法で複雑な問題を解くのは困難だったのです。

新手法SRLは、この課題を解決するために、問題解決を一連の意思決定プロセスとして捉え直します。専門家の思考を具体的な「アクション」の連続としてモデルに学習させ、各ステップで専門家のアクションとどれだけ近いかに基づいて報酬を与えます。これにより、最終的な答えが間違っていても、部分的に正しい思考プロセスから学習することが可能になります。

実証実験では、SRLの有効性が明確に示されました。数学の難問ベンチマークでは、他の手法で訓練されたモデルに比べて平均3.0%性能が向上。さらに、ソフトウェア開発エージェントのタスクでは、タスク解決率が74%も改善するなど、目覚ましい成果を上げています。

この成果は、企業にとって大きな意味を持ちます。SRLは、比較的小さく安価なモデルの推論能力を大幅に引き上げる可能性を秘めているからです。特筆すべきは、推論にかかる計算コスト（トークン使用量）を増やすことなく性能向上を実現している点です。これにより、費用対効果の高い高性能AIの活用が期待されます。

研究チームは、SRLで基礎的な推論能力を教えた後に、既存の強化学習でさらに性能を磨き上げるという組み合わせが最も効果的であることも発見しました。この「SRL第一主義」のアプローチは、高精度が求められる専門AIを構築するための新たな標準となるかもしれません。今後の発展が注目されます。

出典：VentureBeat

Weibo、低コスト小型AIで巨大モデル超え性能

2025年11月12日 Anthropic DeepSeek Claude AI導入数学 Opus 推論強化学習ファインチューニングコーディング中国 MIT ベンチマーク教師

低コストで巨大モデル超え

Weibo公開の15億パラメータLLM

後訓練コストはわずか7800ドル

数学・コードで巨大モデルを凌駕

商用利用可能なMITライセンス

新訓練手法と企業への示唆

新手法「SSP」で効率的な学習

多様な解を探求し最適解を増幅

エッジデバイスにも搭載可能

推論コストの大幅な削減を実現

詳細を見る

中国のSNS大手Weiboが、オープンソースの小規模言語モデル（LLM）「VibeThinker-1.5B」を発表しました。このモデルはわずか15億パラメータと小型ながら、数学やコーディングの推論タスクで数百倍規模のモデルを凌駕する性能を達成。後訓練にかかった費用はわずか7800ドル（約120万円）で、AI開発における「規模の経済」という常識を覆す可能性を秘めています。

VibeThinker-1.5Bの性能は、多くのベンチマークで証明されています。特に数学とコーディングの分野では、6710億パラメータのDeepSeek R1や、Anthropic社のClaude Opus 4といった巨大モデルと互角以上のスコアを記録しました。これは、モデルの性能がパラメータ数だけで決まるわけではないことを明確に示しています。

この驚異的な性能の背景には、「SSP（Spectrum-to-Signal Principle）」と呼ばれる独自の訓練手法があります。この手法は、学習を2つの段階に分けます。まず、教師ありファインチューニング（SFT）で多様な正解候補を生成。次に、強化学習（RL）を用いてその中から最も確からしい解を特定し、増幅させます。

SSPは、大規模なパラメータに頼らずとも、モデルが推論の「探索空間」を効率的に探ることを可能にします。最初に幅広い可能性（スペクトル）を探り、そこから最も強い信号（シグナル）を見つけ出すアプローチにより、小規模なモデルでも高い論理的思考力を獲得できるのです。これはAI開発のコスト構造を大きく変える可能性があります。

企業にとって、このモデルは非常に魅力的です。小型であるため、スマートフォンや車載システムなどのエッジデバイスにも搭載可能。推論コストは大規模モデルの20分の1から70分の1にまで削減できると試算されています。これにより、これまでコスト面で導入が難しかった高度なAI機能の実用化が加速するでしょう。

VibeThinker-1.5Bの登場は、AI開発のトレンドがパラメータ数の競争から、より効率的で洗練された訓練手法へと移行しつつあることを示唆しています。コスト、速度、そして制御のしやすさを求める企業にとって、このモデルは実用的なAI導入に向けた強力な選択肢となることは間違いありません。

出典：VentureBeat

AI基盤Baseten、モデルの「重み」所有権を武器に参入

2025年11月10日 OpenAI エンジニア推論ファインチューニング GPU インフラクラウドオープンソースモデル

「モデル所有権」で脱ロックイン

学習後のモデルの重みを完全所有

他社プラットフォームへの持ち出しが自由

競合のロックイン戦略と対抗

独自技術でコストと手間を削減

マルチクラウドでGPUを最適調達

インフラ管理の運用負荷を解消

推論と学習の一貫した最適化

先行事例でコスト84%削減も達成

詳細を見る

AIインフラ企業のBasetenは、新たなAIモデルトレーニングプラットフォーム『Baseten Training』の一般提供を開始しました。最大の特徴は、顧客がファインチューニングしたモデルの『重み（weights）』を完全に所有し、他社サービスへ自由に持ち出せる点です。オープンソースモデルの活用でOpenAIなどへの依存を減らしたい企業に対し、インフラ管理の負担なく高性能なカスタムAIを開発できる環境を提供します。

背景には、オープンソースAIモデルの性能向上があります。多くの企業が、高価なクローズドモデルへの依存を減らすため、自社データでモデルをファインチューニングする動きを加速させています。しかし、GPUクラスタの管理やクラウドの容量計画など、インフラ運用には高度な専門知識が必要で、多くの企業にとって大きな障壁となっていました。

Basetenは、モデルの「重み」の所有権を顧客に与えることで、この課題に応えます。競合他社の中には、学習済みモデルを自社プラットフォームに留めるロックイン戦略を取る企業も少なくありません。Basetenは、顧客がモデルを自由に持ち出せるようにすることで、自社の推論サービスの性能で選ばれるという自信を示しています。

技術的な強みは、独自のマルチクラウド管理システム（MCM）です。このシステムは、複数のクラウドプロバイダーから動的にGPUを調達し、コストと可用性を最適化します。これにより、企業は特定のクラウドベンダーとの高価な長期契約なしに、必要な時に必要なだけ計算資源を利用できるようになります。

先行導入企業は既に大きな成果を上げています。データ処理を手がけるAlliumAI社は、推論コストを84%削減。ドメイン特化モデルを開発するParsed社は、エンドツーエンドの遅延を50%改善しました。インフラの複雑さを気にせず、モデル開発に集中できる点が評価されています。

Basetenは、トレーニングと推論の両方をシームレスに連携させることで、AI開発のライフサイクル全体を支援します。ハイパースケーラーとの競争は激化していますが、優れた開発者体験とパフォーマンスを武器に、エンタープライズ市場での存在感を高める構えです。モデルの所有権という透明性が、多くの企業にとって魅力的な選択肢となるでしょう。

出典：VentureBeat

AIの弱点、人間的な『毒』の模倣が知性より困難

2025年11月07日 Llama エンジニアファインチューニングプロンプト Mistral Reddit

AIを見破る新たな視点

過度に丁寧な感情表現が特徴

人間特有のネガティブさの欠如

70-80%の高精度でAIを検出

研究の概要と手法

主要SNSで9種のLLMをテスト

独自の「計算論的チューリングテスト」

調整後も感情の差は歴然

ビジネスへの示唆

AIによる世論操作対策への応用

より人間らしい対話AI開発のヒント

詳細を見る

チューリッヒ大学などの国際研究チームが、ソーシャルメディア上でAIが生成した文章は、過度に丁寧で人間特有の「毒」がないため70〜80%の高精度で見分けられるという研究結果を発表しました。この研究は、AIが知性を模倣する能力は向上したものの、人間らしい自然な感情、特にネガティブな側面の再現には依然として大きな課題があることを示唆しています。

研究が明らかにしたのは、AIにとって知性を偽装するより「毒性」を偽装する方が難しいという逆説的な事実です。Twitter/XやRedditなどのプラットフォームで、実際の投稿に対するAIの返信を分析したところ、その毒性スコアは人間による返信より一貫して低いことが判明しました。AIは、人間同士のやり取りに見られる偶発的なネガティブさを再現できないのです。

研究チームは、人間の主観に頼らない「計算論的チューリングテスト」という新たな手法を導入しました。これは自動化された分類器と言語分析を用い、文章の長さなど構造的な特徴ではなく、感情のトーンや表現といった、より深い言語的特徴からAIが書いた文章を特定するものです。このアプローチにより、客観的なAI検出が可能になりました。

Llama 3.1やMistralなど9種類の主要な大規模言語モデル（LLM）がテスト対象となりました。研究チームは、プロンプトの工夫やファインチューニングといった最適化を試みましたが、AIの過度に友好的な感情トーンという根本的な特徴は解消されませんでした。「高度な最適化が、必ずしも人間らしい出力を生むわけではない」と研究は結論付けています。

この発見は、AIによる偽情報キャンペーンや世論操作ボットの検出に応用できる可能性があります。一方で、顧客対応AIなど、より自然で人間らしい対話を目指す開発者にとっては、「不完全さ」や「ネガティブさ」をいかに組み込むかという新たな課題を突きつけます。あなたの組織のAIは、丁寧すぎて逆に不自然になっていませんか。

出典：Ars Technica

Pinterest、オープンソースAIでコスト減と高性能両立

2025年11月05日 AI活用アシスタントエンジニア経営者ファインチューニング画像投資オープンソースモデル

オープンソースAIの威力

桁違いのコスト削減`を実現

プロプライエタリモデルと`同等の性能`

Pinterestの特定用途に最適化

PinterestのAI活用戦略

ビジュアルAIでの活用を拡大

AIアシスタントで商品発見を支援

独自モデルとOSSを定期的に比較

背景と市場の反応

ホリデー商戦の売上予測は弱気

発表を受け株価は21%以上下落

詳細を見る

画像共有サービス大手Pinterestは、オープンソースのAIモデルを活用することで、コストを大幅に削減しつつ高いパフォーマンスを維持できるとの見解を明らかにしました。11月5日の決算説明会でビル・レディCEOが言及したもので、ファインチューニング（微調整）により、大手モデルに匹敵する性能を桁違いに低いコストで実現できるとしています。

レディCEOは特にビジュアルAI分野での有効性を強調。定期的な比較テストの結果、ファインチューニングしたオープンソースモデルは、主要なプロプライエタリモデルと「`同等の性能`」を「`桁違いに低いコスト`」で達成できると述べました。これにより、多くのユースケースでオープンソースモデルへの移行を進める方針です。

この戦略は、同社の厳しい業績見通しを背景としています。ホリデー商戦の売上予測が市場予想を下回り株価が急落する中、AI投資の費用対効果が大きな課題となっていました。オープンソース活用は、コストを抑えながらイノベーションを推進するための具体的な回答と言えるでしょう。

同社はAIアシスタント「Pinterest Assistant」など、AI活用を積極的に進めています。今回の発表は、プロプライエタリモデルへの依存を減らし、自社のユースケースに最適化したAIを低コストで運用するというIT業界の新たな潮流を示すものです。経営者やエンジニアにとって示唆に富む事例ではないでしょうか。

出典：TechCrunch

Google、市民参加型AIで熱帯雨林の生態系を保全

2025年11月05日 Google ファインチューニングクラウド音声ブラジル Google DeepMind

市民参加でAI生態系保全

Googleの新プロジェクト始動

熱帯雨林の音を市民が聞き分ける

生物多様性モニタリングが目的

専門機関WildMonとの協業

「耳」でAIを訓練し貢献

回答でAIモデル'Perch'を訓練

120万以上の音声録音が基盤

データ不足の課題を解決

不可能だった規模での生態系保護

詳細を見る

Googleが市民参加型のAIプロジェクト「Forest Listeners」を開始しました。これは、ブラジルの熱帯雨林の生態系を保護するため、一般の人々が動物の鳴き声を聞き分け、AIモデルを訓練する取り組みです。Google Arts & CultureとDeepMindが開発し、専門機関と協力。クラウドソーシングで収集したデータにより、生物多様性のモニタリングをこれまでにない規模で実現することを目指します。

参加者はウェブサイト上の仮想3D森林で、録音された音を聞きます。そして、特定の動物の鳴き声が聞こえるかどうかを「はい」か「いいえ」で回答するだけです。この簡単な操作を通じて、誰もが専門的な知識なしに、最先端のAI研究と環境保全に直接貢献できる仕組みとなっています。

なぜ「音」なのでしょうか。森林に生息する動物の鳴き声の多様性やパターンは、その生態系の健全性を示す重要な指標です。しかし、何千時間にも及ぶ録音データを人力で分析するのは困難で、特に多くの重要種ではAIの訓練データが不足しているという課題がありました。

市民からの回答は、Google DeepMindのAIモデル「Perch」をファインチューニングするために活用されます。120万件以上の音声録音を基に、検証済み音声の巨大なライブラリを構築。これにより、AIが自動で種を認識する精度が向上し、科学者による生態系保護活動を大規模に支援します。

このプロジェクトは、単なるデータ収集に留まりません。参加者が熱帯雨林の生命力あふれる音に触れ、自然保護への関心を深める機会を提供します。テクノロジーと市民の協力を融合させ、地球の貴重な生態系を守るための新しいモデルケースとなることが期待されます。

出典：Google公式

SAP、調整不要の表計算AI発表業務予測を即実現

2025年11月04日 AI活用 AI導入専門家ファインチューニング事前学習基盤モデルオープンソースモデルノーコード

「調整不要」の表計算AI

ファインチューニング不要

導入後すぐに予測分析へ活用

数十年のビジネスデータで学習

LLMとの明確な違い

テキストでなく表データから学習

数値間の関係性を深く理解

構造的で正確な回答を生成

提供計画と今後の展望

2025年第4四半期に一般提供

ノーコード環境での実験も可能

詳細を見る

独ソフトウェア大手のSAPは、企業のAI導入を簡素化する新たな基盤モデル「RPT-1」を発表しました。このモデルは表形式データに特化しており、従来のLLMのように時間とコストのかかるファインチューニングが不要な点が最大の特徴です。導入後すぐに予測分析などの高度な業務に活用できるとしており、2025年第4四半期の一般提供開始を予定しています。

RPT-1は「リレーショナル基盤モデル」と名付けられ、リレーショナルデータベースやExcelのようなスプレッドシートのデータから学習します。SAPが数十年にわたり蓄積したビジネス取引データを基に事前学習済みのため、企業は自社の個別データを追加学習させることなく、「すぐに使える（out-of-the-box）」状態で業務アプリケーションに直接組み込むことが可能です。

テキストやコードを学習する大規模言語モデル（LLM）とは一線を画します。RPT-1は、数値や異なるセル間の関係性を深く理解することで、より構造的で正確な回答を生成できます。この特性は、特に金融分野や企業の業績管理など、精密な分析が求められる業務で真価を発揮するでしょう。汎用LLMでは対応が難しいユースケースを切り拓きます。

このモデルの基盤となっているのは、SAPの研究者が提唱した「ConTextTab」というアーキテクチャです。これは、テーブルのヘッダーや列の型といった意味情報（セマンティックシグナル）を手がかりに学習を進めることで、データ間の関連性を構造的に把握します。この仕組みが、RPT-1の精度の高さを支えています。

RPT-1は2025年第4四半期に、SAPのAI基盤サービス「AI Foundation」を通じて一般提供が開始される予定です。また、専門家でなくてもモデルを試せるノーコードの実験環境（プレイグラウンド）も提供されます。SAPは今後、オープンソースモデルを含む他のモデルも順次リリースする計画で、企業のAI活用をさらに加速させそうです。

出典：VentureBeat

Vertex AI強化、独自AIモデル開発をGoogleが支援

2025年10月27日 Google Gemini AWS 検索ファインチューニング半導体 GPU ハードウェア RAG

新サービス「Vertex AI Training」

企業独自の大規模モデル開発

マネージドSlurm環境を提供

数百〜数千チップの長期ジョブ

ハードウェア障害から自動復旧

競合との差別化と提供価値

AWS、CoreWeaveに対抗

多様なチップへのアクセス

Gemini開発の専門知識を活用

GPU調達の課題を解決

詳細を見る

Google Cloudが、企業による独自の大規模AIモデル開発を支援する新サービス「Vertex AI Training」を発表しました。AWSや専門プロバイダーのCoreWeaveなどに対抗するもので、マネージドSlurm環境を提供し、大規模な計算資源へのアクセスを容易にします。

このサービスは、単純なファインチューニングやRAG（検索拡張生成）の利用者を対象としていません。ゼロからモデルを構築したり、大幅なカスタマイズをしたりする、数百から数千のチップを要する大規模なトレーニングジョブに焦点を当てています。

最大の特徴は、マネージドSlurm環境にあります。これにより、ジョブのスケジューリングやハードウェア障害発生時の自動復旧が実現します。ダウンタイムを最小限に抑え、大規模クラスタでの効率的なトレーニングを可能にするのです。

なぜ今、このようなサービスが求められるのでしょうか。背景には、企業がモデル開発に必要なGPUを確保する際の熾烈な競争があります。Vertex AI Trainingは、単なる計算資源のレンタルではなく、包括的な開発環境を提供することで競合との差別化を図ります。

Googleは、多様なチップへのアクセスや、自社のGeminiモデル開発で培った専門知識も提供価値として挙げています。既にシンガポールのAI Singaporeなどが早期顧客として名を連ねており、専門的なモデル開発の需要の高まりを示しています。

出典：VentureBeat

AIが感情を翻訳、高葛藤な人間関係を円滑化

2025年10月27日 AI導入 AI要約専門家創業者ファインチューニングリスクシリコンバレー心理学

対立緩和AIの仕組み

攻撃的なメッセージをフィルタリング

感情を除き事実のみを要約

冷静かつ建設的な返信案を提案

24時間対応の感情的支援

主要アプリとアプローチ

BestInterest: 高葛藤な相手に特化

OurFamilyWizard: 既存PFにAI機能追加

実用化への課題

相手へのツール利用の強制力なし

AI要約による情報欠落リスク

詳細を見る

シリコンバレーの起業家らが、離婚後の共同養育など高葛藤な人間関係における対立を緩和するAIツールを開発しています。この技術は、相手からの攻撃的なメッセージをフィルタリングし、感情的な表現を取り除いて事実のみを要約。さらに、利用者が冷静かつ建設的な返信を行えるようコーチングします。目的は、精神的な消耗を減らし、本来の課題解決に集中させること。人間関係の「感情のスペルチェック」とも言えるこの新技術に注目が集まっています。

開発の背景には、創業者自身のつらい経験があります。テック起業家のソル・ケネディ氏は、離婚した元妻とのメッセージのやり取りで精神的に消耗し、業務に支障をきたすほどでした。こうした個人的な課題を解決する「スケーラブルなソリューション」を求め、自身の経験を基にAIアプリ『BestInterest』を開発しました。

BestInterestの中核機能は、受信メッセージの感情フィルタリングです。例えば「お前はバカだ。子供を3時に迎えに来い」といったメッセージは、「相手は動揺しており、子供を3時に迎えに来れるか尋ねています」と変換・要約されます。これによりユーザーは感情的な反応から距離を置き、事実に基づいた対応が可能になります。

もう一つの柱が、返信のコーチング機能です。ユーザーが攻撃的な返信をしようとすると、AIが介入。ナルシシズム研究の権威である心理学者の監修のもと、単に謝罪を促すのではなく、毅然とした態度で建設的な対話を導く「背骨のある」応答を提案します。感情的な応酬を断ち切る狙いです。

競合もAI導入を急いでいます。共同養育支援プラットフォーム大手『OurFamilyWizard』は、AI機能『ToneMeter AI』を実装。1万件以上の実データでファインチューニングした独自LLMが、不適切な表現をより穏やかな言い回しに書き換える提案をします。既存のユーザー基盤とデータ量が強みです。

しかし、実用化には課題も残ります。相手に専用アプリや電話番号の使用を同意させるのは、高葛藤な関係性では特に困難です。また、AIによる要約が重要なニュアンスや法的な証拠を見落とすリスクも指摘されており、最終的には利用者が原文を確認する必要があります。技術への過信は禁物と言えるでしょう。

この技術の応用範囲は共同養育に留まりません。家族間の対立、職場のハラスメント、さらにはSNS上の誹謗中傷など、あらゆるコミュニケーションの健全化に貢献する可能性を秘めています。専門家は、いずれ「感情のスペルチェック」がスマートフォンの標準機能になる未来も予測しています。

出典：WIRED

LLMも「脳腐敗」、低品質データで性能低下か

2025年10月23日 GPT-4 エンジニア経営者ファインチューニング事前学習コンテンツ品質保証米国 Hugging Face

「LLM脳腐敗」仮説

人間の脳腐敗から着想

ジャンクデータで認知能力が低下

米国の複数大学が共同研究

「ジャンクデータ」の定義

高エンゲージメントで短い投稿

陰謀論や誇張された主張

クリックベイトなど扇動的な内容

GPT-4oで意味的な質を評価

ビジネスへの示唆

学習データの品質管理が不可欠

モデルの長期的な性能を左右

詳細を見る

テキサスA&M;大学など米国の研究チームが、大規模言語モデル（LLM）を低品質な「ジャンクデータ」で継続的に学習させると、人間の「脳腐敗」に似た性能低下が起きる可能性を指摘する論文を発表しました。この研究は、LLMの性能を維持・向上させる上で、学習に用いるデータの「量」だけでなく「質」が極めて重要であることを示唆しており、AIをビジネス活用する企業にとって重要な知見となりそうです。

研究チームが提唱するのは「LLM脳腐敗仮説」です。これは、人間がインターネット上で些細で質の低いコンテンツを大量に消費すると、注意⼒や記憶⼒が低下する現象に着想を得ています。同様に、LLMもジャンクなウェブテキストで事前学習を続けると、持続的な認知能力の低下を招くのではないか、というのが仮説の骨子です。

では、何が「ジャンクデータ」と見なされるのでしょうか。研究チームはHuggingFaceが公開する1億件のツイートデータを分析し、2つの指標で定義を試みました。一つは、エンゲージメント（いいね、リツイート等）は高いが、文章が短いツイートです。これらは些細な内容でユーザーの注意を引く「ジャンク」の典型例とされました。

もう一つの指標は、ツイートの「意味的な質」です。研究チームはGPT-4oを活用し、陰謀論、誇張された主張、根拠のない断言、あるいはクリックベイトのような扇動的な見出しを含むツイートを「ジャンク」として分類しました。このAIによる分類の精度を人間が検証したところ、76%の一致率を示し、一定の信頼性が確認されています。

この研究は、AIをビジネスに活用する経営者やエンジニアに重要な問いを投げかけています。自社データなどでLLMをファインチューニングする際、安易に大量のデータを投入するだけでは、かえってモデルの性能を損なう危険性があるのです。AI戦略において、データの品質をいかに担保するかというデータガバナンスの重要性が、改めて浮き彫りになったと言えるでしょう。

出典：Ars Technica

アドビ、企業専用Firefly構築の新サービス開始

2025年10月20日広告クリエイターファインチューニングコンテンツ知的財産画像動画ブランドコンサル Adobe

Fireflyの高度なカスタマイズ

企業IPでFireflyを再トレーニング

ブランド専用のAIモデルを構築

微調整ではないディープチューニング

画像、動画、3Dなどマルチモーダル対応

コンサルティング型サービス

アドビ専門チームが直接連携

データ選定から運用まで支援

企業のIPは安全に分離・保護

ディズニーなどが先行導入

詳細を見る

アドビは2025年10月20日、企業向けの新サービス「Adobe AI Foundry」を発表しました。このサービスは、企業のブランド資産や知的財産（IP）を用いて、同社の生成AIモデル「Firefly」を根本から再構築し、企業専用のカスタムAIモデルを提供するものです。企業のより高度で複雑なカスタマイズ需要に応えることを目的としています。

最大の特徴は「ディープチューニング」と呼ばれる手法です。これは、既存のAIモデルの表面を微調整する「ファインチューニング」とは一線を画します。Fireflyのベースモデルを外科的に再手術するかのように、企業のIPを深く組み込んで再トレーニングすることで、ブランドのトーンやスタイルを完全に理解したモデルを構築します。

AI Foundryは、アドビの専門チームが顧客と直接連携するコンサルティング型のサービスです。データ選定から安全な取り込み、モデルの再トレーニングまでを一貫して支援します。顧客企業のIPは厳格に分離・保護され、他のモデルの学習に利用されることはありません。完成したモデルはAPI経由で提供されます。

このサービスにより、企業は自社ブランドの世界観に完全に合致した画像、動画、3Dコンテンツなどを大規模に生成できます。例えば、一度制作した広告キャンペーンを、季節や言語、フォーマットに合わせて瞬時に横展開することが可能になり、マーケティングのパーソナライズ化を加速させます。

既に米小売大手The Home Depotやウォルト・ディズニー・イマジニアリングが先行顧客として導入しています。アドビは、このサービスが人間の創造性を代替するのではなく、クリエイターの表現力を高めるための次世代ツールであると位置づけており、今後の展開が注目されます。

出典：VentureBeat | TechCrunch

Salesforce、AWS活用でLLM運用コスト40%削減

2025年10月14日 Amazon Salesforce AWS 生産性推論ファインチューニング GPU インフラクラウドデプロイ

カスタムLLM運用の課題

数ヶ月かかるデプロイ作業

ピーク時を見越したGPU予約コスト

頻繁なリリースに伴う保守の複雑化

Bedrock導入による成果

デプロイ時間を30%短縮

運用コストを最大40%削減

サーバーレスによる自動スケール実現

導入成功のポイント

既存APIを維持するハイブリッド構成

コールドスタートへの対策実施

詳細を見る

クラウド大手のセールスフォースは、AWSのAIサービス「Amazon Bedrock」を導入し、自社でカスタマイズした大規模言語モデル（LLM）の運用を効率化しました。これにより、モデルのデプロイにかかる時間を30%短縮し、インフラコストを最大40%削減することに成功。AI開発の生産性向上とコスト最適化を両立した事例として注目されます。

同社はこれまで、ファインチューニングしたLLMを自社で運用していましたが、インフラの最適化や設定に数ヶ月を要し、運用負荷の高さが課題でした。また、ピーク時の需要に備えてGPUリソースを常に確保する必要があり、コストが嵩む一因となっていました。

そこで採用したのが、Bedrockの「カスタムモデルインポート」機能です。これにより、インフラ管理の大部分をAWSに任せ、チームはモデル開発やビジネスロジックに集中できるようになりました。既存の運用フローへの影響を最小限に抑え、スムーズな移行を実現しています。

移行の鍵は、既存システムとの後方互換性を保つハイブリッド構成です。アプリケーションからのリクエストをまずSageMakerのCPUコンテナで受け、前処理を行った後、GPUを要する推論処理のみをBedrockに転送。これにより、既存のAPIや監視ツールを変更することなく、サーバーレスの利点を享受できました。

導入後の効果は顕著です。インフラ選定などの複雑な作業が不要になり、モデルのデプロイ時間は30%短縮されました。コスト面では、従量課金制への移行により、特に開発・テスト環境など利用頻度に波がある場面で効果を発揮し、最大40%のコスト削減を達成しました。

一方で、大規模モデルでは「コールドスタート」と呼ばれる初回起動時の遅延が発生する点は注意が必要です。同社は、遅延が許容できない本番環境では、定期的にエンドポイントにアクセスして「ウォーム」状態を維持する対策を講じています。自社モデルがサポート対象かも事前に確認すべきです。

Salesforceの事例は、サーバーレスAIが本番環境のワークロードにも十分対応できることを示しています。特にトラフィックが変動するAIアプリケーションにおいて、コストと運用の両面で大きなメリットをもたらすでしょう。LLMの自社運用に課題を抱える企業にとって、有力な選択肢となりそうです。

出典：AWS公式

AIモデルの部分的再訓練でコスト削減

2025年10月13日ファインチューニング

従来の課題

ファインチューニングで能力忘却

全体再訓練は高コスト

新たなアプローチ

部分的な再訓練を提案

「忘却」はバイアスの偏りが原因

特定層の調整で性能を維持

期待される効果

計算コストの大幅削減

出力のドリフトを抑制

より効率的なモデル更新

詳細を見る

イリノイ大学の研究者らが、AIモデルの再訓練における新たな手法を発表しました。モデルの一部のみを再訓練することで、計算コストを削減し、「破滅的忘却」と呼ばれる既存能力の低下を防ぐことが可能です。

企業がLLMを特定タスクに適応させるファインチューニングでは、モデルが以前の能力を忘れてしまう問題がありました。モデル全体の再訓練は、数百万ドルの費用と数週間の時間を要するため、大きな課題でした。

研究によれば、この「忘却」は真の記憶喪失ではなく、バイアスの偏りが原因です。そこで、モデル全体ではなく、意思決定に関わる特定の層（自己注意射影層）のみを再訓練する手法を提案しました。

このアプローチにより、新たなタスクの学習効果を維持しつつ、既存タスクの性能低下をほとんど防げます。結果として、コストを大幅に削減し、より迅速で制御しやすいモデルの更新が実現します。

現状は視覚と言語を扱う2つのモデルでの検証ですが、この原理は他のLLMや異なるモダリティにも応用可能とみられており、今後の発展が期待されます。

出典：VentureBeat

MIT技術でAIが自律的に進化へ

2025年10月13日 GPT-4 強化学習ファインチューニングリスク MIT エージェント教師 LoRA

SEAL技術の概要

LLMが自律的に自己改善

合成データを生成し学習

具体的な性能

知識タスクで大幅な性能向上

GPT-4.1が生成したデータを上回る

フューショット学習でも成功

今後の課題と展望

災害的忘却のリスク

計算コストが課題

モデルの大型化で適応能力向上

詳細を見る

マサチューセッツ工科大学（MIT）の研究チームが、大規模言語モデル（LLM）が自らを改善する技術「SEAL」の改良版を公開し、AIの自律的な進化が現実味を帯びてきました。この技術は、LLMが自ら合成データを生成してファインチューニングを行うことで、外部からの継続的なデータ供給や人間の介入なしに性能を向上させることを可能にします。

SEALの核心は、モデルが「自己編集」と呼ばれる自然言語の指示を生成し、それに基づいて自らの重みを更新する点にあります。これは、人間が学習内容を再構成して理解を深めるプロセスに似ており、従来のモデルがデータをそのまま受け身で学習するのとは一線を画します。

性能評価では、SEALは目覚ましい成果を上げています。新たな事実知識を取り込むタスクでは、正答率を33.5%から47.0%へと向上させ、これはGPT-4.1が生成したデータを使った場合を上回りました。また、少数の例から学ぶフューショット学習でも、成功率を20%から72.5%に引き上げています。

技術的には、SEALは「内側ループ」で自己編集による教師ありファインチューニングを行い、「外側ループ」で強化学習によってより有益な編集を生成する方策を学ぶ、という二重ループ構造を採用しています。計算効率を高めるため、効率的なファインチューニング手法であるLoRAが活用されています。

しかし、課題も残されています。新たな情報を学習する際に、以前に学習した能力が低下する「災害的忘却」のリスクや、一つの編集を評価するのに30～45秒かかる計算コストの高さが挙げられます。研究チームは、強化学習がこの忘却を緩和する可能性があると指摘しています。

それでも、この技術がもたらすインパクトは計り知れません。AIコミュニティからは「凍結された重みの時代の終わり」との声も上がっており、モデルが環境の変化に合わせて進化し続ける、より適応的でエージェント的なAIシステムへの道を開くものと期待されています。

出典：VentureBeat

NVIDIA、LLMの思考力を事前学習で鍛える新手法

2025年10月10日 NVIDIA ワークフロー数学推論強化学習ファインチューニング事前学習ベンチマーク CoT

思考を促す新訓練手法

強化学習を事前学習に統合

モデルが自ら思考を生成

思考の有用性に応じて報酬を付与

外部検証者が不要な自己完結型

推論能力の大幅な向上

数学・科学分野で高スコアを記録

ファインチューニング効果が向上

少ないデータで高い性能を発揮

企業の高信頼性ワークフローに応用

詳細を見る

NVIDIAの研究者チームが、大規模言語モデル（LLM）の訓練手法を根本から変える可能性のある新技術「強化学習事前学習（RLP）」を発表しました。この手法は、従来は訓練の最終段階で行われていた強化学習を、大量のテキストデータを読み込む事前学習の初期段階に統合するものです。これにより、モデルは自ら「思考」する能力を早期に獲得し、複雑な推論タスクにおける性能が飛躍的に向上することが示されました。

従来のLLM開発では、まず「次の単語を予測する」という単純なタスクを通じて、膨大なテキストデータから言語の基本構造を学習させます。その後に、人間によるフィードバックや特定のデータセットを用いたファインチューニング（微調整）で、思考の連鎖（CoT）のような高度な推論能力を教え込むのが一般的でした。しかし、この逐次的なプロセスでは、モデルが深い思考力を初期から身につけることが難しいという課題がありました。

新手法RLPは、このプロセスを刷新します。モデルは次の単語を予測する前に、まず内部で「思考」や推論の連鎖を生成します。そして、その思考が予測精度をどれだけ向上させたかに基づいて、自律的に報酬を受け取ります。思考が予測に役立った場合にのみ正の報酬が与えられるため、モデルは人間によるラベル付けや外部の検証者を必要とせず、有用な思考パターンを効率的に学習していきます。

実験では、RLPを用いて訓練されたモデルが、数学や科学といった高度な推論を要するベンチマークで、従来手法で訓練されたモデルを一貫して上回る性能を示しました。特に注目すべきは、ファインチューニング後もこの性能向上が失われることなく、むしろ相乗効果を生み出す点です。これは、後の学習で以前の知識を忘れてしまう「破滅的忘却」という課題を克服し、より堅牢な基礎能力を構築できることを意味します。

この技術は、企業のワークフローにも大きな影響を与える可能性があります。例えば、金融分析や法務文書の要約など、複数ステップの論理的な思考が求められる業務において、AIの信頼性を高めることが期待されます。NVIDIAの研究担当ヴァイスプレジデントであるブライアン・カタンザロ氏は、「RLPは既存のファインチューニングを置き換えるのではなく、その効果を増幅させるものだ」と述べ、より強力なモデルを構築するための新たな基盤になるとの考えを示しています。

RLPは、単なる訓練コストの削減技術にとどまりません。LLMの学習プロセス自体を、受動的な単語予測から、より能動的で好奇心旺盛な「思考」の探求へとシフトさせるものです。このアプローチは、AIが世界の情報をどのように見て、それについてどう考えるかを教える新しい道筋を示唆しており、将来のAI開発における新たなスケーリングの軸となる可能性を秘めているのです。

出典：VentureBeat

PowerSchool、SageMakerで実現した教育AI向けコンテンツフィルタリング

K-12教育特化AIの安全確保

K-12教育向けAIアシスタント「PowerBuddy」

歴史教育などでの誤検出（False Positive）を回避

いじめ・自傷行為の即時検知を両立させる必要性

SageMaker活用によるモデル育成

Llama 3.1 8BをLoRA技術で教育特化ファインチューニング

高い可用性とオートスケーリングを要件にSageMakerを採用

有害コンテンツ識別精度約93%、誤検出率3.75%未満

事業へのインパクトと将来性

学校現場での教師の負担を大幅に軽減

将来的にマルチアダプター推論で運用コストを最適化

詳細を見る

教育分野向けのクラウドソフトウェア大手PowerSchoolは、AIアシスタント「PowerBuddy」の生徒安全を確保するため、AWSのAmazon SageMaker AIを活用し、コンテンツフィルタリングシステムを構築しました。オープンな基盤モデルであるLlama 3.1を教育ドメインに特化してファインチューニングし、高い精度と極めて低い誤検出率を両立させ、安全な学習環境の提供を実現しています。

このソリューションが目指したのは「責任あるAI（Responsible AI）」の実現です。ジェネリックなAIフィルタリングでは、生徒が歴史的な戦争やホロコーストのような機微な学術的話題を議論する際に、誤って暴力的コンテンツとして遮断されるリスクがありました。同時に、いじめや自傷行為を示唆する真に有害な内容は瞬時に検知する必要があり、ドメイン特化の調整が不可欠でした。

PowerSchoolは、このカスタムモデルの開発・運用基盤としてAmazon SageMaker AIを選定しました。学生の利用パターンは学校時間帯に集中するため、急激なトラフィック変動に対応できるオートスケーリング機能と、ミッションクリティカルなサービスに求められる高い信頼性が決め手となりました。また、モデルの重みを完全に制御できる点も重要でした。

同社はLlama 3.1 8Bモデルに対し、LoRA（Low Rank Adaptation）技術を用いたファインチューニングをSageMaker上で行いました。その結果、教育コンテキストに特化した有害コンテンツ識別精度は約93%を達成。さらに、学術的な内容を誤って遮断する誤検出率（False Positive）を3.75%未満に抑えることに成功しました。

この特化型コンテンツフィルタリングの導入は、学生の安全を確保するだけでなく、教育現場に大きなメリットをもたらしています。教師はAIによる学習サポートにおいて生徒を常時監視する負担が減り、より個別指導に集中できるようになりました。現在、PowerBuddyの利用者は420万人以上の学生に拡大しています。

PowerSchoolは今後、SageMaker AIのマルチアダプター推論機能を活用し、コンテンツフィルターモデルの隣で、教育ドメインに特化した意思決定エージェントなど複数の小型言語モデル（SLM）を展開する計画です。これにより、個別のモデルデプロイが不要となり、専門性能を維持しつつ大幅なコスト最適化を目指します。

出典：AWS公式

元OpenAIムラティ氏、AI調整ツールTinker公開

2025年10月01日 OpenAI Meta ChatGPT Qwen Llama エンジニア創業者強化学習ファインチューニング GPU スタートアップ評価額オープンソースモデル

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立

初製品はAIモデル調整ツールTinker

評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化

強化学習でモデルの新たな能力を開拓

Llamaなどオープンソースモデルに対応

調整済みモデルはダウンロードして自由に利用可

詳細を見る

元OpenAIの最高技術責任者（CTO）であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ（ファインチューニング）を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習（RL）の活用です。共同創業者でChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

出典：WIRED

Google、AIで巨匠の作風を学び椅子をデザイン

2025年10月01日 Google デザイン画像生成エンジニア経営者デザイナーファインチューニング画像プロンプト Google DeepMind

AIとデザイナーの協業

Googleと著名デザイナーの協業

生成AIでデザインを試作

有機的な作風をAIが学習

独自モデルで創造性を拡張

独自スケッチでAIを訓練

言語化と対話で出力を調整

金属3Dプリンタで実物化

創造性を拡張する協業ツール

詳細を見る

Google DeepMindは、世界的に著名なデザイナーであるロス・ラブグローブ氏と協業し、生成AIを用いてユニークな椅子をデザインしました。ラブグローブ氏独自のスケッチ群を学習データとし、画像生成モデルをファインチューニング。AIとの対話を通じて氏の作風を反映した新たなアイデアを生み出し、最終的に金属3Dプリンターで物理的なプロトタイプを制作しました。これはAIが創造的プロセスを支援する強力なツールとなり得ることを示す事例です。

プロジェクトの目的は、生成AIを用いてコンセプト作りから物理的な製品まで一貫してデザインを完遂することでした。題材に選ばれたのは、機能が固定されつつも形状の自由度が高い「椅子」。デザイナーの独自のスタイルやニュアンスをAIがどこまで正確に捉え、表現できるかという、古典的かつ本質的なデザインの課題に挑戦しました。

開発チームは、ラブグローブ氏が厳選したスケッチの高品質なデータセットを作成。これをGoogleのテキスト画像生成モデル「Imagen」に学習させ、ファインチューニングを行いました。このプロセスにより、モデルはラブグローブ氏のデザイン言語の核となる特有の曲線や構造的論理、有機的なパターンを組み込み、氏の作風に根差した新しいコンセプトを生成できるようになったのです。

成功の鍵は、デザイナーとAIの「対話」にありました。チームは、氏のデザイン語彙を言語化し、AIへの指示（プロンプト）を工夫することで、出力の精度を高めました。例えば、あえて「椅子」という単語を使わず類義語で指示を出し、より多様な形状や機能の探求を促しました。この試行錯誤が、AIを単なるツールから共同制作者へと昇華させたのです。

AIとの協業プロセスを経て生み出された数々のコンセプトから、ラブグローブ氏のチームは最終的なデザインを選定。金属3Dプリンティング技術を用いて、AIが生成したデジタルデータを実物の椅子として作り上げました。ラブグローブ氏は「AIが、ユニークで並外れた何かをプロセスにもたらしうることを示している」と、この成果を高く評価しています。

この事例は、AIが人間の専門性や創造性を代替するのではなく、むしろ拡張するための強力なパートナーになり得ることを明確に示しています。自社の製品開発やサービス設計において、AIをいかに「協業相手」として活用するか。経営者やエンジニアにとって、その可能性を探る貴重なヒントとなるでしょう。

出典：Google公式

Hugging Face、軽量AIでGUI操作エージェント開発手法を公開

2025年09月24日エンジニア強化学習ファインチューニングエージェントベンチマーク教師 Hugging Face

詳細を見る

AIプラットフォームのHugging Faceは2025年9月24日、軽量な視覚言語モデル（VLM）をGUI操作エージェントに進化させる新手法「Smol2Operator」を公開しました。この手法は2段階のファインチューニングを通じて、モデルに画面要素の認識能力と複雑なタスクの計画・実行能力を付与します。同社はGUI自動化技術の発展を促進するため、訓練手法やデータセット、モデルを全てオープンソース化し、開発の再現性を高めています。 GUI操作AIの開発では、データセットごとに操作の記述形式が異なり、統一的な学習が困難でした。この課題に対し、同社は多様なデータ形式を標準化された一つのアクション空間に変換するパイプラインを開発。これにより、様々なデータソースを一貫してモデル訓練に活用できるようになりました。企業の開発者は、独自の操作体系に合わせてデータセットを容易に変換できます。訓練の第1段階では、モデルにGUI上の要素を正確に認識・特定する「グラウンディング能力」を付与します。「ボタンをクリックする」といった低レベルの指示と、画面上の座標を含む実行コードを対にしたデータで学習させ、モデルが画面を「見る」能力の基礎を築きます。これにより、AIは指示された対象を正確に特定できるようになります。第2段階では、モデルに思考力と計画能力を植え付けます。より高レベルで複雑な指示に対し、次の行動を思考し、複数のステップに分解して実行するデータで訓練します。これにより、モデルは単なる要素認識から、主体的にタスクを遂行するエージェントへと進化し、より複雑な業務自動化への道を開きます。この2段階訓練により、SmolVLM2-2.2Bという比較的小規模なモデルでも、GUI要素の認識ベンチマークで高い性能を達成しました。同社は、この成果の再現性を担保するため、データ処理ツール、統一されたデータセット、訓練済みモデルを全て公開しており、誰でも追試や応用開発が可能です。今後の展望として、教師あり学習（SFT）だけでなく、強化学習（RL）や直接選好最適化（DPO）といった手法の活用が挙げられています。これらの手法により、エージェントが静的なデータから学ぶだけでなく、実環境でのインタラクションを通じて学習・改善する、より高度な能力の獲得が期待されます。

出典：Hugging Face

Gemini、対話型学習パートナー機能『Guided Learning』を発表

2025年09月23日 Google Gemini 生産性 AI活用エコシステムエンジニア学生ファインチューニング動画デバッグ投資プロンプト YouTube

詳細を見る

Googleは2025年9月23日、生成AI「Gemini」に新機能「Guided Learning」を追加したと発表しました。これは対話を通じて学習を支援するインタラクティブなパートナー機能です。単に答えを示すのではなく、質問やテストで理解度を確認しながら学習を進めます。個人の学習から専門スキルの習得まで、幅広い用途で深い知識の獲得を支援します。新機能の最大の特徴は、答えではなく「プロセス」を重視する点です。複雑な問題を尋ねると、関連概念を解説し、ユーザーと共に解決へと導きます。これは表面的な知識ではなく、本質的な理解を促すための設計です。まさに、根気強いパーソナルチューターと言えるでしょう。活用シーンは多岐にわたります。アップロードした資料から学習ガイドを生成したり、エンジニアのコードデバッグを対話形式で支援したりできます。語学学習や資格試験の準備など、個人のスキルアップから業務利用まで、ユーザーのペースに合わせて段階的に知識を深めることが可能です。この機能の背景には、学習に特化してファインチューニングされたモデル群「LearnLM」があります。LearnLMは好奇心を刺激するなど、学習科学の原則において高い性能を示します。高品質な図表のデータベースやYouTube 動画を引用し、視覚的でわかりやすい学習体験を提供します。開発のきっかけは、昨年の「Learning Coach Gem」の成功です。ユーザーは単なる答えだけでなく、概念を理解するための「相棒」を求めていることが明らかになりました。プロンプトの専門知識がなくても、自然な対話で深い学びが得られるツールを目指して開発されました。今回の新機能は、Googleの教育分野への大規模投資の一環です。学生向けGemini Proの無料提供や、AIスキル育成プログラムも同時に発表しました。「責任あるAIは学習を支援し生産性を高める強力なツールだ」と同社は強調し、教育分野でのAI活用を推進しています。 Googleは「教育エコシステムは変革期にある」と見ており、今後もAIで学習を支援するパートナーであり続ける計画です。今回の機能は、誰もが発見の喜びを感じ、知識を深めることを目指しています。ビジネスパーソンのリスキリングにも大きな影響を与える可能性があります。

出典：Google公式

Stability AI、AI安全対策を強化。年次透明性レポート公開

2025年09月17日ファインチューニングリスクコンテンツポリシーコンテンツフィルタ画像動画音声 Stability AI

安全設計と実績値

学習データからの有害コンテンツ排除

モデル・APIの多層的な悪用防止

全生成AIモデル（100%）のリスク評価

学習データからのCSAM検出は0%

NCMECへの不正利用報告は計13件

透明性とガバナンス

API生成コンテンツへのC2PAメタデータ付与

リリース前におけるレッドチーミングの継続実施

業界団体や法執行機関との連携強化

詳細を見る

Stability AIは2025年9月、2024年4月から2025年4月までの期間を対象とした年次「インテグリティ透明性レポート」を公開しました。同社は、責任ある生成AI開発の取り組みとして、児童性的虐待素材（CSAM）の防止に重点を置き、具体的な安全対策と実績値を開示しています。透明性を通じて信頼を構築し、ガバナンス強化を目指す方針です。

同社の安全対策は、「データ」「モデル」「プラットフォーム」の三層で構成されています。特に学習データについては、社内開発およびオープンソースのNSFW分類器に加え、業界団体のCSAMハッシュリストを適用し、有害コンテンツを徹底的に排除しています。報告期間中、学習データからのCSAM検出は0%でした。

モデルのリリース前には、厳格なリスク評価手法である「レッドチーミング」を実施しています。Stable Diffusion 3を含む全生成AIモデル（100%）がCSAM/CSEM生成能力に関してストレス評価を受けました。有害な生成能力が特定された場合、リリース前に概念を除去するセーフティ・ファインチューニングが施されます。

プラットフォームAPIレベルでは、入力と出力の両方に対し、リアルタイムでのコンテンツフィルターを適用しています。既知のCSAMを検出・ブロック・報告するためのハッシュシステムも統合されています。これにより、AUP（許容利用ポリシー）違反の入出力を即座に阻止する多層的な防御を実現しています。

AIコンテンツの真正性を担保するため、Stability AIはAPIを通じて生成された画像や動画、音声にC2PAメタデータを付与しています。このメタデータにはモデル名やバージョン番号が含まれ、AI生成物であることを特定可能にし、コンテンツの透明性向上に貢献します。

悪用防止のため、自動検出ツールと人間による審査を組み合わせたコンテンツモデレーション体制を敷いています。実際にCSAMに関連する試行が検出された場合、NCMEC（行方不明・搾取児童センター）へ迅速に報告を実施。報告期間中のNCMECへの報告総数は13件でした。

出典：Stability AI

USA Todayが自社チャットボット導入、GoogleのAI概要に反撃

2025年09月15日 Google 検索チャットボット広告 AI要約ファインチューニングリスクコンテンツ著作権音楽出版社 SEO ジャーナリズムエージェントオープンソースモデル

出版業界の危機感

Google AI Overviewでトラフィック激減

検索エンジン依存モデルの将来リスクを指摘

著作権侵害への数十億ドルの補償を要求

独自AI「DeeperDive」

Gannettが独自チャットボットDeeperDive発表

220紙以上の自社記事を回答ソースに限定

事実確認を重視し意見記事を除外

技術と収益戦略

開発はTaboolaと連携しOSSを活用

検索ボックスを代替し読者の関心を捕捉

将来的に購買支援エージェント化を目指す

詳細を見る

米大手新聞社Gannett（USA Today Network）は、GoogleのAI概要（AI Overview）機能によるウェブトラフィック激減に対抗するため、独自AIチャットボット「DeeperDive」を導入しました。同社CEOのマイク・リード氏は、WIRED AI Power Summitにて発表し、AIがコンテンツを要約することで、出版社へのトラフィックフローが劇的に減少している現状を強く批判しました。この動きは、AIによるメディア業界の収益モデル破壊に対する具体的な反撃策として注目されています。

DeeperDiveは、USA Today Networkの220紙以上の出版物から得たジャーナリズム記事のみに基づいて読者の質問に答える、「AI回答エンジン」です。従来の検索ボックスを置き換え、ユーザーに直接的な回答と関連性の高い記事を提供します。これは、読者が外部のAI企業に行かずとも、信頼できる情報源内で完結させることを目的としています。

DeeperDiveの最大の特徴は、回答の事実正確性を重視している点です。同CEOは、意見記事は参照せず、「実際のジャーナリズム」のみを参照源とすることを強調しました。このツールは広告技術企業Taboolaと共同開発され、複数のオープンソースモデルをファインチューニングして構築されています。

リードCEOは、GoogleのAI Overviewが「10の青いリンク（従来の検索結果）」を経由するトラフィックを著しく妨害しているとの認識を示しました。この問題は業界全体に及び、SEO最適化に依存する従来のコンテンツ配信モデルに、将来的なリスクをもたらすと警鐘を鳴らしています。

メディア業界のリーダーたちは、AIがコンテンツを学習データとして使用することに対する数十億ドル規模の補償が必要だと主張しています。Condé Nastのロジャー・リンチCEOは、音楽業界がストリーミングサービスとライセンス契約を結んだ状況になぞらえ、AIモデルにとってコンテンツは最も重要なインプットであると訴えています。

GannettはDeeperDiveを通じて読者の関心や意図をより深く理解し、収益化に繋げることを期待しています。次のステップとして、読者の購買決定を支援するエージェント機能を探求する意向を示しています。同社の読者は元々購買意欲が高い層であり、新たな収益源としての可能性を見込んでいるとのことです。

出典：WIRED | WIRED

AIブームが巨大企業を置き去りにする可能性

2025年09月14日 OpenAI Anthropic Gemini Claude GPT-5 創業者強化学習ファインチューニング事前学習事後学習リスクインフラスタートアップブランド基盤モデル

基盤モデルの価値変化

基盤モデルはコモディティ化へ

事前学習の効果が鈍化

事後学習と強化学習へ注目が移行

競争環境の変化

アプリケーション層での競争が激化

オープンソース代替案の台頭

低マージン事業への転落リスク

企業戦略の再構築

ファインチューニングとUI設計が重要

基盤モデル企業の優位性は縮小

新たな競争優位性の模索が必要

詳細を見る

AIブームが進む中、基盤モデルを開発する巨大企業が置き去りにされる可能性が浮上している。かつては「GPTラッパー」と軽視されたAIスタートアップが、特定タスク向けのモデルカスタマイズやインターフェース設計に注力し始めたからだ。

基盤モデルの価値が変化している背景には、事前学習のスケーリング効果が鈍化している事実がある。AIの進歩は止まっていないが、超大規模モデルの初期利益は減少し、事後学習や強化学習が新たな進化の源泉となっている。

競争環境も変化している。スタートアップはGPT-5、Claude、Geminiなど基盤モデルを互換性のある部品として扱い、ユーザーが気づかない間にモデルを切り替えることを前提に設計している。

この状況は、OpenAIやAnthropicのような基盤モデル企業を低マージンのコモディティ事業のバックエンドサプライヤーに変えるリスクをはらんでいる。ある創業者はこれを「スターバックスにコーヒー豆を売るようなもの」と表現した。

もちろん、基盤モデル企業が完全に脱落するわけではない。ブランド力、インフラ、巨額の資金など持続的な優位性も存在する。しかし、昨年までの「より大きな基盤モデルを構築する」という戦略は魅力を失いつつある。

AI開発の速いペースを考えると、現在の事後学習への注目も半年後には逆転する可能性がある。最も不確実なのは、汎用人工知能への競争が医薬品や材料科学で新たなブレークスルーを生み出す可能性だ。

結局のところ、AIの価値は基盤モデル自体ではなく、それを活用するアプリケーションやユーザー体験に移行しつつある。企業はこの変化に適応し、新たな競争優位性を築く必要に迫られている。

出典：TechCrunch

ファインチューニング（モデル学習手法・技術）に関するニュース一覧

ファインチューニング（モデル学習手法・技術）に関するニュース一覧

発表の要点

技術と適用範囲

再編の混乱

経営陣の対応

拡散方式の仕組み

性能と適用範囲

性能と価格

技術の核心

企業利用

MeMoの仕組み

RAGとの比較と限界

否定無視の実験結果

訓練データへの示唆

3つの推論モードを統合

速度と精度の両立

ベンチマーク結果の衝撃

特化が効く構造的理由

企業AI調達への示唆

AIエージェントの機能

事業環境と成長

高効率なMoE構造

企業向け実用機能

完全オープンソース化

テキスト通信の限界

潜在空間での協調

精度と効率の両立

インタラクションモデル

人間中心のAI戦略

Alchemyの仕組み

既存手法との違い

導入効果と課題

ゴブリン問題の発覚と原因

対策とAI訓練への教訓

Lagunaモデルの概要

性能と開発環境

モデルの性能と効率

価格とライセンス戦略

実証された自律タスク

性能とコストの全体像

アーキテクチャの技術的飛躍

市場と地政学への波及

モデルの技術的特徴

企業導入のメリット

T2スケーリング則の核心

開発者への実践的示唆

限界と今後の展望

Color Modeの主要機能

GPU活用と関連発表

発見された脆弱性の実態

エージェントAIの構造的リスク

TACプログラム拡大

GPT-5.4-Cyberの特徴

サイバー防御戦略の全体像

収録用語の概要

新たに追加された項目

流出ファイルの概要

想定されるAI活用

経験から学ぶ仕組み

ベンチマークでの成果

企業導入への課題

主要受賞プロジェクト

技術特別賞と展望

Small 4の特徴

推論コスト削減

ベンチマーク性能

手法と成果

企業実績と展開

エコシステムの急成長

中国の台頭と地政学

技術トレンドの変化

新オープンモデル群

エージェント基盤整備

クリエイティブAI強化

Forgeの主要機能

競合との差別化戦略

カリキュラムの特徴

アフリカ展開の背景

統合の概要