スケーリング則(モデル学習手法・技術)に関するニュース一覧

NeurIPS2025:強化学習への回帰とGoogleの復権

技術トレンドの転換点

スケーリングから強化学習(RL)
特定用途へのモデル調整が加速
継続学習や世界モデルが新潮流

激変する企業勢力図

Google DeepMindが復権
中国や新興ラボが急速に台頭
物理AIロボティクスの実用化

2025年12月、サンディエゴで開催された世界最大級のAI国際会議「NeurIPS」にて、業界の潮流が決定的な転換点を迎えました。これまでのデータ量を追求する競争から、強化学習(RL)や推論能力の深化を目指す「研究の時代」へと、開発の主戦場が大きく移行しています。

最大の焦点は、会場のあらゆる議論を席巻した強化学習(RL)の再流行です。単に事前学習データを増やすスケーリング則の限界が意識され始め、特定のユースケースに向けてモデルを精緻に調整するアプローチが、次なる成長のドライバーとして認知されています。

企業間の勢力図においては、Google DeepMindが圧倒的な存在感を示しました。Gemini 3の発表や最多の論文採択数を背景に、技術的なリーダーシップを取り戻しています。一方でAnthropicも勢いを維持する中、OpenAIは相対的に注目度を分け合う形となりました。

新たな技術トレンドとして、継続学習(Continual Learning)や世界モデルへの関心が急上昇しています。静的なモデルではなく、環境との相互作用を通じて学習し続けるシステムの構築が、2026年に向けた重要な研究テーマとして浮上してきました。

また、AlibabaのQwenDeepSeekといった中国、およびReflection AIなどの新興ラボが台頭しています。彼らは既存の大手ラボとは異なるアプローチで成果を上げており、AI開発の多極化が進んでいることを印象づけました。

実用面では、デジタル空間を超えた物理AI(Physical AI)ロボティクスへの応用が加速しています。エージェントAIを単なるモデルではなく「スタック」として捉え、実社会の複雑な課題解決に直結させる動きが、エンジニアたちの関心を集めています。

Anthropic「安全なAIこそ市場の勝者」規制批判に反論

安全性が生む競争優位性

トランプ政権の規制批判に真っ向反論
顧客は信頼性と安全性を最重視
リスク公開は車の衝突テストと同じ
安全基準が競争優位性を生み出す

倫理重視とスケーリング則

憲法AIで倫理的な判断力を実装
誠実な姿勢が優秀な人材を誘引
スケーリング則通りに性能と収益増

米WIRED主催イベントで、Anthropic共同創業者のダニエラ・アモデイ氏は、トランプ政権のAI規制批判に反論しました。顧客企業が真に求めるのは「規制なきAI」ではなく、業務で確実に使える安全で信頼性の高いAIであると強調しています。

30万顧客を持つ同社は、安全性が競争力の源泉と分析します。アモデイ氏はこれを自動車の衝突テストに例え、脆弱性の公開と対策提示が信頼に繋がると説明。市場は安全で幻覚の少ない製品を優先的に選ぶため、結果として自律的な規制が機能するのです。

同社は「憲法AI」の手法を用い、国連人権宣言などの倫理原則をモデルに学習させています。リスクに誠実な姿勢は優秀な人材を惹きつけ、社員数は2000人超へ急増。性能と収益もスケーリング則に従い、順調な成長曲線を維持しています。

AI業界は『一つの塊』へ融合 巨大テックが築く相互依存網

複雑化する資金と技術の循環

MicrosoftNvidia循環的な取引構造
Anthropicへの巨額投資と利用確約

計算資源の壁と単独の限界

スケーリング則による莫大な開発コスト
インフラ構築に向けた全方位的な提携

潜在する共倒れのリスク

政府や海外資本を巻き込む巨大な塊
バブル崩壊時に波及する連鎖的危機

米WIRED誌は、現在のAI業界が個別の競争を超え、巨大企業が複雑に絡み合う「Blob(塊)」と化していると報じています。MicrosoftNvidiaGoogleなどの巨人が、資金と技術を相互に循環させる構造を形成しており、かつて描かれた非営利主導の理想とは異なる、巨大な営利エコシステムが誕生しました。

この構造を象徴するのが、MicrosoftNvidiaAnthropicによる最近の戦略的提携です。MicrosoftOpenAIの競合であるAnthropicに出資し、Anthropicはその資金でAzureを利用、Nvidiaも出資して自社半導体の採用を確約させました。これは単なる競争ではなく、「互いが互いの顧客になる」という循環的な依存関係の深化を意味します。

なぜこれほどの癒着が進むのか。背景にはAIモデルの性能向上に不可欠なスケーリング則」の現実があります。想定を遥かに超える計算資源とデータセンター建設が必要となり、いかなる巨大企業であっても単独でのインフラ構築が困難になりました。結果、開発企業はクラウド事業者や半導体メーカーと全方位的なパートナーシップを結ばざるを得ません。

懸念されるのは、この相互依存ネットワークが一蓮托生のリスクを孕んでいる点です。米国政府はこの動きを規制するどころか、サウジアラビアなどの海外資本流入を含めて後押しする姿勢を見せています。しかし、もしAIバブルが弾ければ、相互に接続されたすべてのプレイヤーが同時に危機に直面する「共倒れ」の危険性が潜んでいます。

Samsungの超小型AI「TRM」、再帰で巨大LLMを超える

TRMのパラメーターと仕組み

パラメーター数はわずか700万
既存LLMの1万分の1サイズ
再帰的推論による予測の洗練
低コストで高性能モデルを実現

性能と適用領域

数独や迷路など構造化パズルに特化
特定ベンチマーク巨大LLMを凌駕
設計の簡素化が汎化性能向上に寄与
コードはMITライセンスで公開中

韓国Samsung AI研究所の研究者が、新たな超小型AIモデル「TRM(Tiny Recursion Model)」を発表しました。わずか700万パラメーターのこのモデルは、特定の推論ベンチマークにおいて、OpenAIのo3-miniやGoogleGemini 2.5 Proなど、1万倍以上巨大なLLMの性能を凌駕しています。AI開発における「スケールこそ全て」という従来のパラダイムに対し、低コストで高性能を実現する新たな道筋を示す画期的な成果です。

TRMの最大の特徴は、階層構造を持つ複雑なネットワークを排除し、単一の2層モデルを採用した点です。このモデルは、入力された質問と初期回答に対し、推論ステップを繰り返して自身の予測を再帰的に洗練させます。この反復的な自己修正プロセスにより、深いアーキテクチャをシミュレートし、巨大モデルに匹敵する推論能力を獲得しています。

TRMは、構造化され、視覚的なグリッドベースの問題に特化して設計されました。特にSudoku-Extremeで87.4%の精度を達成し、従来モデル(HRM)の55%から大幅に向上。また、人間の推論は容易だがAIには難解とされるARC-AGIベンチマークでも、数百万倍のパラメーターを持つ最上位LLMに匹敵する結果を出しています。

開発者は、高額なGPU投資電力消費を伴う巨大な基盤モデルへの依存は「罠」だと指摘します。TRMの成功は、複雑性を減らすことで逆に汎化性能が向上するという「Less is More(少ない方が豊か)」の設計思想を裏付けました。この成果は、大規模な計算資源を持たない企業や研究者でも、高性能AIを開発できる可能性を示唆します。

TRMのコードは、商用利用も可能なMITライセンスのもとGitHubでオープンソース公開されています。これにより、企業は特定の推論タスク解決のために、巨大LLMのAPIを利用するのではなく、自社のサーバーで低コストの専用モデルを構築・運用できます。今後は、再帰的推論スケーリング則や、生成タスクへの応用が焦点となる見込みです。

アルトマン氏、GPT-5批判に反論「AGIへの道は順調」

「GPT-5」への逆風

期待外れとの厳しい評価
AIブーム終焉論の台頭
スケーリング則の限界指摘

OpenAIの反論

専門分野での画期的な進歩
進歩の本質は強化学習
GPT-6以降で更なる飛躍を約束
AGIは目的地でなくプロセス

OpenAIサム・アルトマンCEOが、8月に発表された「GPT-5」への厳しい批判に反論しました。同氏はWIRED誌のインタビューで、初期の評判は芳しくなかったと認めつつも、GPT-5AGI(汎用人工知知能)への探求において重要な一歩であり、その進歩は計画通りであると強調。AIブームの終焉を囁く声に真っ向から異を唱えました。

GPT-5の発表は、多くの専門家や利用者から「期待外れ」と評されました。デモでの不具合や、前モデルからの飛躍が感じられないという声が相次ぎ、「AIブームは終わった」「スケーリング則は限界に達した」との懐疑論が噴出する事態となったのです。

これに対しアルトマン氏は、GPT-5の真価は科学やコーディングといった専門分野で発揮されると主張します。「物理学の重要な問題を解いた」「生物学者の発見を助けた」など、AIが科学的発見を加速させ始めた初のモデルだとし、その重要性を訴えています。

では、なぜ評価が分かれたのでしょうか。OpenAI側は、GPT-4から5への進化の間に頻繁なアップデートがあったため、ジャンプが小さく見えたと分析。また、今回の進歩の核は巨大なデータセットではなく、専門家による強化学習にあったと説明しています。

アルトマン氏は、スケーリング仮説が終わったとの見方を強く否定。同社は数十億ドル規模のデータセンター建設を進めており、計算能力の増強が次なる飛躍に不可欠だと断言します。「GPT-6は5より、GPT-7は6より格段に良くなる」と自信を見せています。

興味深いのは、AGIの定義に関する変化です。OpenAIAGIを「特定の到達点」ではなく、「経済や社会を変革し続ける終わりのないプロセス」と捉え直しています。GPT-5はその過程における、科学的進歩の可能性を示す「かすかな光」だと位置づけているのです。

LLM開発費を最大化する効率的スケーリング則、MITが提言

研究の核心と課題

LLM開発の高額な計算資源コストへの対処法
小規模モデルから大規模モデルの性能を予測
従来の予測手法は体系的な検証が不足

効率を高める指針

多様なサイズでモデル数を優先して訓練
最終損失でなく中間チェックポイントを活用
ターゲットモデルの部分学習(30%程度)でコスト削減

データ選定と精度

初期のノイズデータ(100億トークン未満)を破棄
目標精度と計算予算を事前に決定

マサチューセッツ工科大学(MIT)の研究チームは、大規模言語モデル(LLM)の訓練コストを最適化するための「スケーリング則」構築ガイドを公開しました。これは、数百万ドルにも上る開発費を効率的に使い、大規模モデルの性能を高い信頼性で予測するための体系的な指針を提供します。AI開発における予算と性能のトレードオフを解消する画期的な分析です。

スケーリング則とは、小さなモデルの学習結果から、同じモデルファミリーのより大きなターゲットモデルの性能(特に損失)を推定する手法です。従来、この手法は開発者ごとに異なり、その有効性がブラックボックス化していました。今回の研究では、40種類のモデルファミリー、485の独自モデルを分析し、1,000以上のスケーリング則を検証しています。

最も重要な提言の一つは、予測の堅牢性を高めるために、多様なサイズのモデルを少数訓練することを優先すべき点です。単に非常に大規模なモデルを訓練するよりも、5つ程度の小規模モデルを分散して訓練することが、スケーリング則の精度向上に寄与すると結論付けています。

また、リソースを効率的に活用するため、ターゲットモデルをデータセットの約30%まで部分的に訓練し、そのデータを使って性能を外挿することで、大幅なコスト削減が可能となります。加えて、訓練過程の最終損失だけでなく中間チェックポイントのデータを利用することが予測信頼性を高める鍵です。

ただし、訓練開始直後(100億トークン以前)のデータはノイズが多く、予測精度を低下させるため破棄すべきだと研究者は推奨しています。開発者は、予測誤差率(ARE)が4%以内であれば最良、20%以内であっても意思決定に十分役立つ精度として目標設定が可能です。

興味深い発見として、完全に訓練されたモデルの「中間段階」のデータが、別のターゲットモデルの予測に再利用できることが判明しました。これは、追加コストなしに予測リソースを増強できることを意味します。また、小規模モデルと大規模モデルの挙動は予想以上に類似していることも確認されました。

研究チームは今後、モデルの訓練時間だけでなく、モデルの応答時間(推論時間)に関するスケーリング則へと分析を拡大する計画です。ユーザーの新しいクエリに対して「最適な思考量」を予測する技術は、リアルタイムでのAI活用においてさらに重要性を増すと期待されています。

Googleが初のDP-LLM「VaultGemma」発表。プライバシー保護と性能の両立へ

<span class='highlight'>VaultGemma</span>公開の背景

機密データや著作権リスクの回避
LLMが訓練内容を記憶する現象
高品質な訓練データの枯渇

差分プライバシー(DP)とは

訓練フェーズでの意図的なノイズ付加
ユーザーデータのプライバシー保護を確約
データ記憶の確実な防止

DPスケーリング法則

精度と計算リソースのトレードオフ
ノイズ対バッチ比率が性能を左右
開発者が最適なノイズ量を設計可能

Google Researchは、AIが訓練データを記憶し、機密情報を漏洩させるリスクに対応するため、初のプライバシー保護型大規模言語モデル(LLM)「VaultGemma」を発表しました。同時に、差分プライバシー(DP)をLLMに適用する際の性能と計算資源のトレードオフを規定する「DPスケーリング法則」を確立しました。この技術開発は、機密性の高いユーザーデータや著作権データに依存せざるを得ない今後のAI開発において、プライバシー保護とモデル性能の両立を図る上で極めて重要です。

LLMは非決定論的な出力をしますが、訓練データに含まれる個人情報や著作権データをそのまま出力してしまう、いわゆる「データ記憶」のリスクが常に伴います。VaultGemmaは、この記憶を防ぐために差分プライバシー(DP)を適用したモデルです。DPでは、モデルの訓練フェーズにおいて意図的に調整されたノイズを加えることで、特定の訓練データの影響を最小限に抑え、ユーザープライバシーの侵害を確実に防止します。

これまで、DPの導入はモデルの精度低下や計算要件の増大といった欠点を伴うため、その適用には慎重な判断が必要でした。しかし、Googleの研究チームは、モデルの性能が主に「ノイズ対バッチ比率」に影響されるという仮説に基づき、大規模な実験を実施しました。その結果、計算予算、プライバシー予算、データ予算の3要素の均衡点を見出すDPスケーリング法則を確立したのです。

このスケーリング法則の核心は、ノイズの増加がLLMの出力品質を低下させることを定量化した点にあります。開発者は、プライバシーを強化するためにノイズを増やした場合でも、計算リソース(FLOPs)やデータ量(トークン)を増やすことで性能低下を相殺できることが分かりました。この法則は、開発者が最適な「ノイズ対バッチ比率」を事前に設計し、プライバシーと性能の理想的なバランスを追求する道を開きます。