スケーリング則(モデル学習手法・技術)に関するニュース一覧

Samsungの超小型AI「TRM」、再帰で巨大LLMを超える

TRMのパラメーターと仕組み

パラメーター数はわずか700万
既存LLMの1万分の1サイズ
再帰的推論による予測の洗練
低コストで高性能モデルを実現

性能と適用領域

数独や迷路など構造化パズルに特化
特定ベンチマーク巨大LLMを凌駕
設計の簡素化が汎化性能向上に寄与
コードはMITライセンスで公開中

韓国Samsung AI研究所の研究者が、新たな超小型AIモデル「TRM(Tiny Recursion Model)」を発表しました。わずか700万パラメーターのこのモデルは、特定の推論ベンチマークにおいて、OpenAIのo3-miniやGoogleGemini 2.5 Proなど、1万倍以上巨大なLLMの性能を凌駕しています。AI開発における「スケールこそ全て」という従来のパラダイムに対し、低コストで高性能を実現する新たな道筋を示す画期的な成果です。

TRMの最大の特徴は、階層構造を持つ複雑なネットワークを排除し、単一の2層モデルを採用した点です。このモデルは、入力された質問と初期回答に対し、推論ステップを繰り返して自身の予測を再帰的に洗練させます。この反復的な自己修正プロセスにより、深いアーキテクチャをシミュレートし、巨大モデルに匹敵する推論能力を獲得しています。

TRMは、構造化され、視覚的なグリッドベースの問題に特化して設計されました。特にSudoku-Extremeで87.4%の精度を達成し、従来モデル(HRM)の55%から大幅に向上。また、人間の推論は容易だがAIには難解とされるARC-AGIベンチマークでも、数百万倍のパラメーターを持つ最上位LLMに匹敵する結果を出しています。

開発者は、高額なGPU投資電力消費を伴う巨大な基盤モデルへの依存は「罠」だと指摘します。TRMの成功は、複雑性を減らすことで逆に汎化性能が向上するという「Less is More(少ない方が豊か)」の設計思想を裏付けました。この成果は、大規模な計算資源を持たない企業や研究者でも、高性能AIを開発できる可能性を示唆します。

TRMのコードは、商用利用も可能なMITライセンスのもとGitHubでオープンソース公開されています。これにより、企業は特定の推論タスク解決のために、巨大LLMのAPIを利用するのではなく、自社のサーバーで低コストの専用モデルを構築・運用できます。今後は、再帰的推論スケーリング則や、生成タスクへの応用が焦点となる見込みです。

アルトマン氏、GPT-5批判に反論「AGIへの道は順調」

「GPT-5」への逆風

期待外れとの厳しい評価
AIブーム終焉論の台頭
スケーリング則の限界指摘

OpenAIの反論

専門分野での画期的な進歩
進歩の本質は強化学習
GPT-6以降で更なる飛躍を約束
AGIは目的地でなくプロセス

OpenAIサム・アルトマンCEOが、8月に発表された「GPT-5」への厳しい批判に反論しました。同氏はWIRED誌のインタビューで、初期の評判は芳しくなかったと認めつつも、GPT-5AGI(汎用人工知知能)への探求において重要な一歩であり、その進歩は計画通りであると強調。AIブームの終焉を囁く声に真っ向から異を唱えました。

GPT-5の発表は、多くの専門家や利用者から「期待外れ」と評されました。デモでの不具合や、前モデルからの飛躍が感じられないという声が相次ぎ、「AIブームは終わった」「スケーリング則は限界に達した」との懐疑論が噴出する事態となったのです。

これに対しアルトマン氏は、GPT-5の真価は科学やコーディングといった専門分野で発揮されると主張します。「物理学の重要な問題を解いた」「生物学者の発見を助けた」など、AIが科学的発見を加速させ始めた初のモデルだとし、その重要性を訴えています。

では、なぜ評価が分かれたのでしょうか。OpenAI側は、GPT-4から5への進化の間に頻繁なアップデートがあったため、ジャンプが小さく見えたと分析。また、今回の進歩の核は巨大なデータセットではなく、専門家による強化学習にあったと説明しています。

アルトマン氏は、スケーリング仮説が終わったとの見方を強く否定。同社は数十億ドル規模のデータセンター建設を進めており、計算能力の増強が次なる飛躍に不可欠だと断言します。「GPT-6は5より、GPT-7は6より格段に良くなる」と自信を見せています。

興味深いのは、AGIの定義に関する変化です。OpenAIAGIを「特定の到達点」ではなく、「経済や社会を変革し続ける終わりのないプロセス」と捉え直しています。GPT-5はその過程における、科学的進歩の可能性を示す「かすかな光」だと位置づけているのです。

LLM開発費を最大化する効率的スケーリング則、MITが提言

研究の核心と課題

LLM開発の高額な計算資源コストへの対処法
小規模モデルから大規模モデルの性能を予測
従来の予測手法は体系的な検証が不足

効率を高める指針

多様なサイズでモデル数を優先して訓練
最終損失でなく中間チェックポイントを活用
ターゲットモデルの部分学習(30%程度)でコスト削減

データ選定と精度

初期のノイズデータ(100億トークン未満)を破棄
目標精度と計算予算を事前に決定

マサチューセッツ工科大学(MIT)の研究チームは、大規模言語モデル(LLM)の訓練コストを最適化するための「スケーリング則」構築ガイドを公開しました。これは、数百万ドルにも上る開発費を効率的に使い、大規模モデルの性能を高い信頼性で予測するための体系的な指針を提供します。AI開発における予算と性能のトレードオフを解消する画期的な分析です。

スケーリング則とは、小さなモデルの学習結果から、同じモデルファミリーのより大きなターゲットモデルの性能(特に損失)を推定する手法です。従来、この手法は開発者ごとに異なり、その有効性がブラックボックス化していました。今回の研究では、40種類のモデルファミリー、485の独自モデルを分析し、1,000以上のスケーリング則を検証しています。

最も重要な提言の一つは、予測の堅牢性を高めるために、多様なサイズのモデルを少数訓練することを優先すべき点です。単に非常に大規模なモデルを訓練するよりも、5つ程度の小規模モデルを分散して訓練することが、スケーリング則の精度向上に寄与すると結論付けています。

また、リソースを効率的に活用するため、ターゲットモデルをデータセットの約30%まで部分的に訓練し、そのデータを使って性能を外挿することで、大幅なコスト削減が可能となります。加えて、訓練過程の最終損失だけでなく中間チェックポイントのデータを利用することが予測信頼性を高める鍵です。

ただし、訓練開始直後(100億トークン以前)のデータはノイズが多く、予測精度を低下させるため破棄すべきだと研究者は推奨しています。開発者は、予測誤差率(ARE)が4%以内であれば最良、20%以内であっても意思決定に十分役立つ精度として目標設定が可能です。

興味深い発見として、完全に訓練されたモデルの「中間段階」のデータが、別のターゲットモデルの予測に再利用できることが判明しました。これは、追加コストなしに予測リソースを増強できることを意味します。また、小規模モデルと大規模モデルの挙動は予想以上に類似していることも確認されました。

研究チームは今後、モデルの訓練時間だけでなく、モデルの応答時間(推論時間)に関するスケーリング則へと分析を拡大する計画です。ユーザーの新しいクエリに対して「最適な思考量」を予測する技術は、リアルタイムでのAI活用においてさらに重要性を増すと期待されています。

Googleが初のDP-LLM「VaultGemma」発表。プライバシー保護と性能の両立へ

<span class='highlight'>VaultGemma</span>公開の背景

機密データや著作権リスクの回避
LLMが訓練内容を記憶する現象
高品質な訓練データの枯渇

差分プライバシー(DP)とは

訓練フェーズでの意図的なノイズ付加
ユーザーデータのプライバシー保護を確約
データ記憶の確実な防止

DPスケーリング法則

精度と計算リソースのトレードオフ
ノイズ対バッチ比率が性能を左右
開発者が最適なノイズ量を設計可能

Google Researchは、AIが訓練データを記憶し、機密情報を漏洩させるリスクに対応するため、初のプライバシー保護型大規模言語モデル(LLM)「VaultGemma」を発表しました。同時に、差分プライバシー(DP)をLLMに適用する際の性能と計算資源のトレードオフを規定する「DPスケーリング法則」を確立しました。この技術開発は、機密性の高いユーザーデータや著作権データに依存せざるを得ない今後のAI開発において、プライバシー保護とモデル性能の両立を図る上で極めて重要です。

LLMは非決定論的な出力をしますが、訓練データに含まれる個人情報や著作権データをそのまま出力してしまう、いわゆる「データ記憶」のリスクが常に伴います。VaultGemmaは、この記憶を防ぐために差分プライバシー(DP)を適用したモデルです。DPでは、モデルの訓練フェーズにおいて意図的に調整されたノイズを加えることで、特定の訓練データの影響を最小限に抑え、ユーザープライバシーの侵害を確実に防止します。

これまで、DPの導入はモデルの精度低下や計算要件の増大といった欠点を伴うため、その適用には慎重な判断が必要でした。しかし、Googleの研究チームは、モデルの性能が主に「ノイズ対バッチ比率」に影響されるという仮説に基づき、大規模な実験を実施しました。その結果、計算予算、プライバシー予算、データ予算の3要素の均衡点を見出すDPスケーリング法則を確立したのです。

このスケーリング法則の核心は、ノイズの増加がLLMの出力品質を低下させることを定量化した点にあります。開発者は、プライバシーを強化するためにノイズを増やした場合でも、計算リソース(FLOPs)やデータ量(トークン)を増やすことで性能低下を相殺できることが分かりました。この法則は、開発者が最適な「ノイズ対バッチ比率」を事前に設計し、プライバシーと性能の理想的なバランスを追求する道を開きます。