強化学習(モデル学習手法・技術)に関するニュース一覧

Ai2、推論強化の「Olmo 3.1」公開。完全オープンで高性能

強化学習の拡張で推論力を強化

強化学習期間を延長し性能向上
数学推論の指標でスコア急増
ThinkモデルはQwen 3を凌駕

企業のAI活用を支える高い透明性

学習データや過程が完全オープン
自社データでの再学習が容易
Hugging Face等ですぐに利用可能

米Allen Institute for AI (Ai2) は、最新の大規模言語モデル「Olmo 3.1」をリリースしました。既存モデルに対し強化学習(RL)の期間を延長することで、数学推論や指示追従の能力を大幅に引き上げています。中身を完全オープンにすることで、企業利用における信頼性と制御性を担保した点が最大の特徴です。

特に注目すべきは、高度な研究用途に最適化された「Olmo 3.1 Think 32B」です。研究チームは224個のGPUを使用し、さらに21日間の追加トレーニングを実施。その結果、数学等のベンチマークでスコアが5ポイント以上向上するなど、複雑なタスクでの性能が飛躍し、競合のQwen 3を凌駕する実力を示しています。

実務向けには「Olmo 3.1 Instruct 32B」が用意されました。こちらはチャット、ツール使用、複数回のやり取り(マルチターン)に最適化されています。7Bモデルで培った手法を大規模モデルに適用し、実社会でのアプリケーション構築に耐えうる即戦力モデルへと進化しました。

Ai2の一貫した強みは、開発プロセスの透明性です。学習データやコード、トレーニング決定のすべてが開示されており、企業はモデルの挙動を深く理解した上で、自社データを用いたカスタマイズが可能になります。生成結果の根拠を追跡できる点も、ビジネス利用における大きな安心材料となるでしょう。

現在、これらのモデルはAi2 PlaygroundやHugging Faceを通じて利用可能です。APIアクセスも近日中に提供される予定であり、エンジニアや研究者にとって、高性能かつ透明性の高い新たな選択肢となります。

OpenAI設立10年、超知能の実現はほぼ確実との見解

創業からの軌跡と技術的進歩

設立当初の不確実性と楽観主義
2017年の強化学習やRLHFの成果
ChatGPT投入でAGIが現実的目標に

戦略的成功と超知能への展望

段階的デプロイが業界標準となる
10年以内に超知能の構築を確信
全人類への利益を目指すミッション

OpenAIサム・アルトマンCEOは2025年12月11日、設立10周年を記念する声明を発表しました。同氏は、かつて「クレイジー」とされたAGI(汎用人工知能)の実現に向けた道筋が確固たるものになったと強調し、今後10年以内に「超知能(Superintelligence)」を構築することはほぼ確実であるとの見解を示しました。

振り返れば、2015年の設立当初は成功確率の低い挑戦と見られていました。しかし、2017年には「Dota 1v1」での強化学習や、現在のアライメント技術の基礎となる「人間からのフィードバックによる強化学習(RLHF)」など、重要な技術的ブレークスルーを達成。これらを大規模な計算能力でスケールさせることで、ChatGPTGPT-4といった革新的な製品を生み出してきました。

アルトマン氏は、未完成の技術を早期に公開し、社会との相互作用を通じて改善していく「段階的デプロイ(iterative deployment)」戦略の正当性を強調します。当時は議論を呼びましたが、現在ではAI開発における業界標準となりました。このプロセスにより、社会はAI技術に適応し、リスクを軽減しながらその恩恵を享受することが可能になっています。

今後の展望として、同氏は2035年までの次の10年で、人類の想像を超える能力を持つ「超知能」が実現すると予測しています。日常生活は大きく変わらないように見えるかもしれませんが、人類ができることの範囲は劇的に拡大するでしょう。OpenAIは引き続き、AGIが全人類に利益をもたらすよう、安全かつ責任ある開発を推進していく構えです。

MS、AIエージェントの強化学習を「コード改修なし」で実現

強化学習導入の壁を打破

LLMエージェントは複雑な手順でエラーを起こしやすい
従来の強化学習導入は大規模なコード修正が不可欠

実行と学習を分離する新技術

Agent Lightningは実行と学習を分離し導入を容易に
各ステップの貢献度を評価し個別報酬を割り当て

既存資産で精度向上を実現

既存のエージェント資産を活かしAPI変更のみで対応
SQL生成やRAGなど実務タスクで精度向上を確認

Microsoft Research Asiaは、AIエージェント強化学習(RL)を組み込むためのオープンソースフレームワーク「Agent Lightning」を発表しました。既存のエージェントコードをほとんど書き換えることなく、タスク実行データを用いて自律的な性能改善を可能にする画期的な技術です。

LLMベースのエージェントは複雑な工程でミスを犯しやすく、その改善には強化学習が有効とされてきました。しかし、従来の手法ではエージェントの設計自体を学習用に大幅に作り変える必要があり、開発者にとって極めて高い導入障壁となっていました。

本フレームワークは、エージェントの「タスク実行」と「モデル学習」を明確に分離するミドルウェアとして機能します。エージェントのあらゆる挙動を状態・行動・報酬のシーケンスに変換し、RLが学習可能な標準フォーマットとして統合します。

核となる「LightningRL」アルゴリズムは、一連のタスク完了後に各LLMリクエストの貢献度を分析します。個々のステップに適切な報酬を割り当てることで、PPOなどの一般的な単一ステップRLアルゴリズムとの互換性を確保しました。

この設計により、リソース効率も最適化されます。推論を行うエージェントランナーと学習を行うアルゴリズムを分離し、前者はCPU、後者はGPUといった柔軟な構成が可能です。開発者はAPIを切り替えるだけで、既存資産を維持したまま学習を開始できます。

MicrosoftはText-to-SQL、RAG(検索拡張生成)、数学推論という3つの実用シナリオで検証を行い、すべてのケースで性能向上を確認しました。今後はプロンプトの自動最適化機能なども追加し、自律的に成長するAIシステムの実現を加速させる方針です。

基板設計AIが3ヶ月の工程を1週間に短縮、一発起動に成功

劇的な生産性向上と精度

3ヶ月かかる設計を1週間に短縮
843部品の複雑な基板で一発起動
人手作業時間を約90%削減

物理法則に基づく独自学習

LLMではなく強化学習を採用
物理法則との対話で最適解を導出
人間の設計データに依存しない

iPod開発者も注目の革新

トニー・ファデル氏が出資・支援
ハードウェア開発のボトルネック解消

米ロサンゼルスのスタートアップQuilter AIが、AIを用いてLinuxコンピュータの基板設計をわずか1週間で完了させました。通常は熟練者が3ヶ月を要する工程を劇的に短縮し、製造初回の「一発起動」に成功しています。この画期的な成果を受け、iPodやiPhoneの開発を主導したトニー・ファデル氏も同社への出資と支援を公表しました。

同社のプロジェクトでは、843個の部品と5,000以上の接続を持つ複雑な基板を設計しました。プロのエンジニアが見積もった428時間という作業時間に対し、AI活用時の人手作業はわずか38.5時間で済みました。結果として修正なしでOSが起動し、Web閲覧も可能な高品質な設計を実現しています。

特筆すべきは、言語モデル(LLM)ではなく物理ベースの強化学習を採用している点です。人間の過去データを模倣するのではなく、AlphaZeroのように物理法則という「ルール」の中で何十億回もの試行錯誤を繰り返し、電磁気や熱の制約を満たす最適な配置と配線を自ら学習します。

プリント基板(PCB)設計は、長年ハードウェア開発の大きなボトルネックでした。半導体や製造技術が進化する中、基板上の配線作業は依然として手作業が主流であり、製品リリースの遅延原因となっていました。Quilterはこの工程を自動化することで、開発サイクルを一変させる可能性を秘めています。

このAIツールはエンジニアの仕事を奪うものではなく、人間が制御可能です。ユーザーは設計の各段階で介入でき、AIに任せる範囲を調整できます。ファデル氏はこれを、かつてのアセンブリ言語からコンパイラへの移行と同様に、設計の抽象度が上がる進化だと位置づけています。

現在の対応範囲は1万ピン・10GHz以下の設計に限られますが、多くの産業用・民生用機器をカバーします。価格は従来の人手による設計と同等に設定されていますが、速度は10倍です。これにより、ハードウェア開発の敷居が下がり、新たなイノベーションが加速することが期待されます。

NeurIPS2025:強化学習への回帰とGoogleの復権

技術トレンドの転換点

スケーリングから強化学習(RL)
特定用途へのモデル調整が加速
継続学習や世界モデルが新潮流

激変する企業勢力図

Google DeepMindが復権
中国や新興ラボが急速に台頭
物理AIロボティクスの実用化

2025年12月、サンディエゴで開催された世界最大級のAI国際会議「NeurIPS」にて、業界の潮流が決定的な転換点を迎えました。これまでのデータ量を追求する競争から、強化学習(RL)や推論能力の深化を目指す「研究の時代」へと、開発の主戦場が大きく移行しています。

最大の焦点は、会場のあらゆる議論を席巻した強化学習(RL)の再流行です。単に事前学習データを増やすスケーリング則の限界が意識され始め、特定のユースケースに向けてモデルを精緻に調整するアプローチが、次なる成長のドライバーとして認知されています。

企業間の勢力図においては、Google DeepMindが圧倒的な存在感を示しました。Gemini 3の発表や最多の論文採択数を背景に、技術的なリーダーシップを取り戻しています。一方でAnthropicも勢いを維持する中、OpenAIは相対的に注目度を分け合う形となりました。

新たな技術トレンドとして、継続学習(Continual Learning)や世界モデルへの関心が急上昇しています。静的なモデルではなく、環境との相互作用を通じて学習し続けるシステムの構築が、2026年に向けた重要な研究テーマとして浮上してきました。

また、AlibabaのQwenDeepSeekといった中国、およびReflection AIなどの新興ラボが台頭しています。彼らは既存の大手ラボとは異なるアプローチで成果を上げており、AI開発の多極化が進んでいることを印象づけました。

実用面では、デジタル空間を超えた物理AI(Physical AI)ロボティクスへの応用が加速しています。エージェントAIを単なるモデルではなく「スタック」として捉え、実社会の複雑な課題解決に直結させる動きが、エンジニアたちの関心を集めています。

Nvidia、8Bの小型AIで巨大モデル凌ぐ効率と精度実現

巨大モデル依存からの脱却

単一モデルではなく複合システムへ移行
80億パラの軽量モデルが指揮役を担当
専門ツールや他LLMを適材適所で活用

低コストで高精度と柔軟性を実現

強化学習でコストと精度を最適化
博士級試験で巨大モデルを上回る成果
ユーザーの好みや制約に柔軟に対応
企業向けAIエージェント実用化を加速

Nvidiaと香港大学の研究チームは、80億パラメータの小型AIモデル「Orchestrator」を発表しました。強化学習を用いて他のツールやAIモデルを指揮・管理し、単一の巨大モデルよりも低コストかつ高精度に複雑な課題を解決します。

従来は一つの巨大な汎用モデルにあらゆる処理を依存していましたが、本手法は軽量な指揮者検索エンジンやコード解析、他のAIモデルへ処理を委譲します。人間が専門家や道具を使い分けるように、適材適所でツールを活用しシステム全体の効率を高めました。

Qwen3-8B」を基盤に強化学習を行った結果、博士号レベルの難問を含むテストでも巨大モデルを凌ぐ成果を出しました。GPT-5のような高価なモデルの利用を約4割に抑え、安価なツールと組み合わせることで、計算コストを劇的に削減しています。

企業導入における最大の利点は、コスト対効果と高い制御性です。「オープンソースモデルを優先する」といったユーザーの指定条件に従ってツールを選択できるため、予算やプライバシー要件に応じた柔軟な運用が可能となります。

この複合的なアプローチは、より高度で拡張性のあるAIシステムへの道を開くものです。現在、モデルの重みは非商用ライセンスですが、トレーニングコードはApache 2.0で公開されており、次世代のエージェント開発における重要な基盤となるでしょう。

AIの次なる革新は「強化学習環境」にある

データ量競争から「経験の質」へ

AI進化の主軸はデータ規模から環境構築へ移行
次世代の鍵は強化学習環境の整備
静的学習を超え相互作用による改善を実現

試行錯誤が育む自律的解決力

AIが試行錯誤を通じて自律的に学ぶ場
コーディングやWeb操作の実践力が向上
現在のボトルネックはリアルな環境の不足

Scale AIの研究責任者らは、AI進化の競争軸が従来の「データ規模」や「計算力」から、AIが試行錯誤できる「強化学習(RL)環境」へ移行しつつあると指摘しました。次の飛躍的な進化は、AIに対し、失敗と改善を繰り返せるリアルなデジタル空間(教室)を提供できるかどうかにかかっています。

過去10年、AIは大規模データ学習と人間によるフィードバック(RLHF)で発展しましたが、静的なデータだけでは限界が見え始めています。次なるフロンティアの開拓には、高品質なデータに加え、AIが自ら行動し結果を検証できるインタラクティブな環境との組み合わせが不可欠です。

強化学習環境では、AIは「観察・行動・報酬」のループを通じて目標達成能力を磨きます。たとえばコーディングにおいて、単にコードを生成するだけでなく、実行し、エラーをデバッグし、修正するという一連のプロセスを経験させることで、真に自律的な問題解決能力が養われます。

このアプローチは、Webブラウジングや災害対応など、予測不可能性が高い領域で特に重要です。現実世界は障害に満ちており、AIの実用化には「無秩序な現実」を模した環境での訓練が必要です。今や開発のボトルネックはデータではなく、このリッチな学習環境の構築にあるのです。

複雑実務に挑むAI学習基盤「Agent-R1」がRAGを凌駕

数学・コードから「現実世界」へ

従来の強化学習正解のある問題に特化
現実の業務は曖昧で動的な対応が必要
新手法は対話履歴と環境を全学習

中間評価で「過程」を磨く

最終結果だけでなく中間プロセスも評価
スパース報酬問題を解消し学習効率化
ツール実行と状況解釈を分離管理

既存手法を凌駕する実力

多段階推論従来のRAGを圧倒
DeepSeek系アルゴリズムで最高性能
企業利用の自動化レベルを向上

中国科学技術大学の研究チームが、複雑な実務タスクに対応可能なLLMエージェント強化学習フレームワーク「Agent-R1」を開発しました。従来の数学コーディングといった明確な領域を超え、曖昧さを含む現実世界の課題解決能力を大幅に向上させます。

これまでの強化学習は、正解が明確なタスクで威力を発揮してきましたが、変化し続けるビジネス環境や予測不能なフィードバックへの対応は苦手でした。エージェントが自律的にツールを使いこなし、複雑な工程を完遂するには、学習モデルの根本的な再定義が必要だったのです。

研究チームは「マルコフ決定過程」を拡張し、過去の対話履歴や環境反応を含めた学習を可能にしました。特筆すべきは、最終結果だけでなく中間の工程を評価する「プロセス報酬」の導入です。これにより、エージェントは正解に至るまでの「過程の良し悪し」を学習し、効率的にスキルを習得します。

Agent-R1は、行動を実行する「Tool」と、その結果を解釈する「ToolEnv」という2つのモジュールで構成されます。単にAPIを叩くだけでなく、その結果がタスク全体の進捗にどう意味を持つかを理解させることで、マルチターンの複雑な対話を制御します。

検証の結果、この手法で訓練されたエージェントは、従来のRAG(検索拡張生成)や基本的なツール利用モデルを大きく上回る性能を示しました。特にDeepSeek-R1などで採用されるアルゴリズム「GRPO」との相性が良く、企業の生産性を高める次世代エージェント開発の基盤として期待されています。

106BモデルIntellect-3がVercelで即時利用可能に

高性能MoEモデルの特徴

106BパラメータのMoEモデル
数学やコード生成でSOTA達成
GLM 4.5 Airをベースに強化

手軽な実装と運用管理

他社契約不要で即座に導入可能
AI SDKでの記述はモデル名のみ
Gatewayによる統合管理に対応

Vercelは2025年11月26日、開発者向け基盤「AI Gateway」にて、Prime Intellect AIの最新モデル「Intellect-3」の提供を開始しました。エンジニアは追加のプロバイダー契約を結ぶことなく、高度な推論能力を持つAIモデルを即座にアプリケーションへ統合できます。

Intellect-3は、GLM 4.5 Airを基盤とした106BパラメータのMoEモデルです。SFT(教師あり微調整)と強化学習による調整を経て、数学コーディング、科学的推論ベンチマークにおいて、同規模のモデルの中で最高水準の性能(SOTA)を記録しています。

実装はVercel AI SDKでモデル名を指定するのみで完結するため、非常にスムーズです。AI Gatewayの機能を活用することで、使用量やコストの追跡、障害時の自動リトライといった堅牢な運用環境も同時に手に入り、AI開発と運用の生産性が大幅に向上します。

アリババ新技術、AIが自ら学習データ生成し性能3割増

独自データ作成の壁を突破

手作業によるデータ収集コストを削減
LLMが環境を探索し自律的に学習

3つの自己進化メカニズム

自己問答で多様なタスクを自動生成
自己ナビで過去の経験を再利用
各工程を詳細評価する自己帰属

実証された成果とビジネス価値

ツール操作性能が約30%向上
独自アプリへのAI導入障壁を低減

アリババのTongyi Labは、AIエージェントが自ら学習データを生成し能力を高める新フレームワーク「AgentEvolver」を開発しました。この技術は、大規模言語モデル(LLM)の推論能力を活用して自律的な学習ループを構築するもので、従来の強化学習に比べてツール操作のパフォーマンスを約30%向上させることが実証されています。企業が独自のソフトウェア環境にAIを導入する際、最大の障壁となるデータ作成コストを劇的に下げる技術として注目されます。

これまで、AIエージェントに特定のソフトウェアを操作させるには、膨大なコストがかかっていました。従来の強化学習では、人間が手作業でタスク例を作成する必要があり、特に社内専用システムなどの未知の環境では学習データそのものが存在しないことが多いためです。また、試行錯誤による学習は計算リソースを大量に消費します。「AgentEvolver」は、モデル自身に学習プロセスを委ねることで、これらのデータ不足と高コストの課題を一挙に解決しようとしています。

この自己進化プロセスの核となるのが、「自己問答(Self-questioning)」というメカニズムです。これは、AIが新しいアプリケーションを探索し、機能の境界を理解した上で、自らトレーニング用のタスクを生成する機能です。研究者はこれを「モデルをデータ消費者からデータ生産者へと変える」と表現しています。人間が事前にタスクを設計しなくとも、AIが環境に合わせて多様な課題を作り出し、それを解くことでスキルを磨いていくのです。

学習効率を高めるために、「自己ナビゲーション(Self-navigating)」と「自己帰属(Self-attributing)」という機能も組み込まれています。自己ナビゲーションは、過去の成功や失敗の経験を記憶し、存在しない機能を使おうとするなどの無駄な動作を防ぎます。一方、自己帰属は、最終的な結果だけでなく、作業の各ステップが成功にどう寄与したかをLLMが詳細に評価します。これにより、AIは単に正解するだけでなく、プロセスの正しさも学習できるようになります。

実際の性能評価でも、その効果は明らかです。Qwen2.5モデルをベースにした実験では、複雑なツール操作を要するベンチマークにおいて、従来手法と比較してスコアが平均で27.8%〜29.4%向上しました。特に、自律的に生成された多様なタスクが、モデルの推論能力と実行能力を大きく引き上げています。これは、少量のデータからでも高品質な学習が可能であることを示しており、企業にとっては専用AIアシスタント開発のハードルが大きく下がることになります。

MS、AIの情報漏洩を防ぐ「文脈理解」新技術を発表

AIエージェントのプライバシー制御

文脈で適切性を判断するコンテキスト・インテグリティ
自律型AIによる意図しない情報漏洩を防止
推論時に監視するPrivacyCheckerを開発
動的環境での情報漏洩を劇的に低減

推論時監査とモデル学習の融合

思考の連鎖でモデル自身が共有可否を推論
強化学習により有用性と安全性を両立
外部監視と内部学習の補完的アプローチ

Microsoft Researchは2025年11月、AIモデルの情報漏洩を防ぐための新たなアプローチを発表しました。AIが「誰に・何を・なぜ」共有するかというコンテキスト・インテグリティ(文脈的整合性)を理解し、自律的なエージェント活動におけるプライバシーリスクを最小化する技術です。推論時の外部チェックとモデル自身の学習という2つの手法を組み合わせ、実用性と安全性の両立を目指します。

自律型AIエージェントの普及に伴い、意図しない情報漏洩が深刻な課題となっています。従来のLLMは文脈認識が不足しており、予約代行時に不要な保険情報を漏らすといった不適切な挙動を起こしかねません。そこでMicrosoftは、状況に応じた適切な情報フローを制御するコンテキスト・インテグリティの概念をAIシステムに適用しました。

一つ目の解決策は、推論時に動作する軽量モジュールPrivacyCheckerです。これはAIの出力前に情報の送信元・受信先・内容を監査し、不適切な共有をブロックします。実験では、複数のツールやエージェントが連携する複雑な動的環境においても、タスク遂行能力を維持したまま情報漏洩率を大幅に削減することに成功しました。

二つ目は、モデル自体に文脈判断能力を持たせる手法です。「思考の連鎖CoT)」を用いて共有の可否を推論させると同時に、強化学習(RL)でトレーニングを行います。これにより、単に情報を隠すあまり役に立たなくなる「過剰な保守性」を防ぎ、高い有用性と強固なプライバシー保護を両立させました。

これらの技術は、外部監視と内部学習という異なる角度からアプローチしており、相互に補完し合う関係にあります。企業が複雑なAIエージェントシステムを導入する際、これらの手法を適用することで、ユーザーの信頼を損なうことなく、生産性を高めることが可能になります。

OpenAIがGPT-5搭載の買物AIを発表、EC体験を一新

自律的な市場調査と提案

数分でバイヤーズガイドを自動生成
対話で条件を絞り込み比較検討を代行
強化学習済みのGPT-5 miniを採用
過去の会話や記憶に基づく提案

戦略的意義と今後の展開

GooglePerplexityとの競争激化
将来的に直接決済機能を統合予定
ホリデー商戦に向け全プラン開放
ECへの送客プラットフォーム

OpenAIは2025年11月24日、ChatGPTの新機能「Shopping Research」を発表し、即日提供を開始しました。最新のGPT-5 miniを基盤とし、ユーザーに代わってWeb上の製品情報を詳細に調査・比較し、最適な購入ガイドを自動作成する機能です。ホリデーシーズンに合わせ、無料版を含む全ユーザーに順次展開されます。

本機能は単なる検索とは異なり、AIが「静音性の高い掃除機」といった曖昧な要望から詳細な条件をヒアリングします。Web上の信頼できるソースを巡回し、価格・スペック・レビューを分析した上で、トレードオフを含めたパーソナライズされた提案書を数分で提示します。特に家電やアウトドア用品など、比較検討が複雑な分野で威力を発揮します。

技術的には、論理的思考能力を高めた「GPT-5-Thinking-mini」をショッピングタスク向けに再学習させています。ユーザーの「もっと似た商品」「興味なし」といったフィードバックをリアルタイムで反映し、精度の高い探索を実現します。Proユーザー向けには、過去の文脈から潜在ニーズを先読みして商品を推薦する「Pulse」機能も提供されます。

GooglePerplexityも同様のショッピングエージェント機能を強化しており、検索から購買への入り口を押さえる競争が激化しています。OpenAIは将来的にチャット内での直接決済機能(Instant Checkout)の実装も計画しており、巨大なEC市場でのプラットフォーム化を明確に狙っています。

情報の正確性は向上していますが、価格や在庫のリアルタイム性には誤差が生じる可能性があります。最終的な購入判断には公式サイトの確認が必要ですが、膨大な商品比較にかかる時間を大幅に短縮できるため、多忙なビジネスパーソンにとって生産性向上の強力なツールとなるでしょう。

Copilot「次の編集」予測、強化学習で精度と速度を革新

リアルタイム編集データの価値

PRデータは途中経過がなく学習に不向き
実際の編集ログを独自に収集
高品質な少量データが性能向上に寄与

強化学習で壁を突破

SFTは「悪い編集」を学習できない
強化学習で未ラベルデータも活用
評価モデルがUIの可読性も判定

精度向上とUXの最適化

提案の受入率が26.5%向上
表示率を下げて邪魔な提案を削減
プロンプト最適化で高速化を実現

GitHubは、AIコーディングアシスタントCopilot」の次世代編集提案機能(NES)において、強化学習とカスタムモデル訓練による大幅な性能向上を達成しました。2025年11月の最新アップデートでは、開発者の「次の一手」を予測する精度と速度が飛躍的に改善されています。本稿では、AI開発におけるデータ戦略の転換と技術的ブレークスルーについて解説します。

当初、開発チームはプルリクエスト(PR)のデータを学習に用いましたが、失敗に終わりました。PRデータはコードの最終状態のみを示し、開発者が試行錯誤する「編集プロセス」を含まないためです。そこでチームは、実際にエディタ内で起きる編集操作のデータを独自に収集・選別する方針へ転換しました。結果、バニラモデルよりも高品質な提案が可能となり、データの質が量に勝ることを実証しました。

さらなる品質向上のため、教師あり微調整(SFT)に加え、強化学習(RL)が導入されました。SFTだけでは「何をしてはいけないか(悪い提案)」をモデルに教えることが困難だからです。独自の評価モデル(Grader)を設計し、コードの正しさだけでなく、UI上での可読性も含めて良し悪しを判定させることで、ラベルのない大量のデータも学習に活用できるようになりました。

この技術革新により、最新モデルは5月版と比較して提案の受入率が26.5%向上しました。一方で、提案の表示頻度は24.5%減少し、ユーザーによって非表示にされる割合も大幅に低下しています。これは、AIがむやみに介入するのではなく、確度の高い場面でのみ「控えめだが的確」にサポートするよう進化したことを意味し、開発者のフローを乱さないUXが実現されています。

今後は、単一ファイルだけでなく複数ファイルにまたがる編集の提案や、個々の開発者のスタイルに合わせた適応型挙動の実装が進められています。GitHubは、モデル、プロンプト、UXを一体として設計する「AIネイティブ」なアプローチにより、開発者体験をエンドツーエンドで進化させ続けています。

Meta「DreamGym」がAI学習のコストとリスクを劇的削減

仮想環境で強化学習を効率化

MetaらがDreamGymを開発
LLMの強化学習を仮想化
実環境のコストとリスクを排除
インフラ構築の手間を削減

少ないデータで高性能を実現

従来比で成功率30%向上
実データ使用を10%未満に抑制
Sim-to-Realで性能40%改善
企業の独自AI開発を加速

Metaの研究チームらは、LLMエージェント仮想環境で効率的に訓練する新フレームワーク「DreamGym」を開発しました。高コストな実環境での試行錯誤を不要にし、AI開発の生産性を飛躍的に高める技術として注目されています。

従来の強化学習は、膨大なデータの収集や複雑なインフラ構築が必要で、実システムへの誤操作リスクも伴うのが課題でした。DreamGymはこのプロセスを完全にシミュレーションで行うことで、これらのハードルを一挙に解消することに成功しました。

本手法は、環境をテキストで再現するモデル、経験を蓄積するバッファ、難易度を調整するタスク生成器の3要素で構成されます。エージェント習熟度に合わせて課題を自動生成するため、効率的かつ安全に学習を進めることが可能です。

実証実験では、Web操作などの複雑なタスクにおいて、従来手法と比較して成功率が30%以上向上しました。また、実環境データの使用量を10%未満に抑えつつ、40%高い性能を達成するなど、圧倒的な効率性を実証しています。

今後、企業は自社専用のAIエージェントを、高価な設備投資なしに開発できるようになります。少量のデータから学習を開始し、シミュレーションで能力を高めるこの手法は、AI導入の敷居を大きく下げる可能性を秘めています。

MS Phi-4の成功、鍵は「データ第一」主義

「小が大を討つ」新常識

140億パラメータで巨大モデル超え
量より質を重視したデータ戦略
厳選された140万件のデータで学習

Phi-4の「賢い学習法」

モデル能力の限界を突く事例を厳選
ドメイン毎に最適化し後で統合
自動検証しやすい合成データを活用

企業が応用できる実践術

まず小規模実験で手法を確立
確立後に大規模学習へ移行

Microsoftが開発した140億パラメータのAIモデル「Phi-4」が、はるかに大規模な競合モデルを凌駕する性能を示し、注目を集めています。その成功の鍵は、モデルの規模ではなく「データ第一」という緻密なファインチューニング手法にありました。このアプローチは、リソースが限られる企業でも高性能AIを開発できる可能性を示唆しています。

Phi-4の画期的な点は、AI開発における「量より質」への転換を証明したことです。従来の大規模化競争とは一線を画し、厳選されたわずか140万件の学習データを使用。これにより、OpenAIの「o1-mini」などを多くの推論タスクで上回り、AI開発の新たな方向性を示しました。

成功の核心は、学習データの戦略的な選別にあります。Phi-4のチームは、モデルの能力の限界ギリギリにある「教えがいのある」事例に焦点を当てました。簡単すぎる問題や難解すぎる問題は意図的に排除し、一つ一つのデータから得られる学習効果を最大化する手法を徹底したのです。

また、ドメイン別の最適化も成功要因の一つです。数学コーディングといった専門分野ごとにデータを個別にチューニングし、その後で統合する「追加的アプローチ」を採用。これにより、各分野の性能を損なうことなく、効率的にモデルの能力を積み上げることに成功しました。

さらに、検証が難しいタスクには「合成データ」を活用しました。例えば、抽象的な証明問題を答えが明確な数値問題に書き換えることで、自動検証を容易にしています。この工夫が、強化学習の効率を飛躍的に高め、モデルの推論能力を確かなものにしました。

Phi-4が示す手法は、多くの企業にとって実践的な指針となります。まずは特定ドメインで小規模な実験を重ね、有効な手法を確立する。その後に本格的な学習へ移行する二段階戦略は、リスクを抑えつつ成果を出すための賢明なアプローチと言えるでしょう。AI開発は、もはや巨大IT企業の専売特許ではないのです。

Google新手法、小規模AIで複雑な推論を実現

新手法SRLの核心

専門家の思考を段階的に学習
結果だけでなくプロセスを評価
ステップごとの報酬で密な指導
模倣と強化学習長所を融合

実証された高い効果

数学問題で性能3%向上
開発タスクで解決率74%改善
推論コストを増やさず性能向上
小規模モデルの活用範囲を拡大

Google Cloudとカリフォルニア大学ロサンゼルス校(UCLA)の研究者らが、小規模なAIモデルでも複雑な多段階の推論タスクを学習できる新手法「監視付き強化学習(SRL)」を発表しました。この手法は、専門家の問題解決プロセスを段階的な「アクション」として捉え、ステップごとにフィードバックを与えることで、従来の手法が抱えていた学習効率の課題を克服します。

これまでのAIの推論能力向上は、最終結果のみを評価する強化学習(RLVR)や、専門家の思考を完全に模倣する教師ありファインチューニング(SFT)が主流でした。しかし、RLVRは途中で間違いがあると学習が進まず、SFTは訓練データに過剰に適合する「過学習」が課題でした。特に小規模モデルでは、これらの手法で複雑な問題を解くのは困難だったのです。

新手法SRLは、この課題を解決するために、問題解決を一連の意思決定プロセスとして捉え直します。専門家の思考を具体的な「アクション」の連続としてモデルに学習させ、各ステップで専門家のアクションとどれだけ近いかに基づいて報酬を与えます。これにより、最終的な答えが間違っていても、部分的に正しい思考プロセスから学習することが可能になります。

実証実験では、SRLの有効性が明確に示されました。数学の難問ベンチマークでは、他の手法で訓練されたモデルに比べて平均3.0%性能が向上。さらに、ソフトウェア開発エージェントのタスクでは、タスク解決率が74%も改善するなど、目覚ましい成果を上げています。

この成果は、企業にとって大きな意味を持ちます。SRLは、比較的小さく安価なモデルの推論能力を大幅に引き上げる可能性を秘めているからです。特筆すべきは、推論にかかる計算コスト(トークン使用量)を増やすことなく性能向上を実現している点です。これにより、費用対効果の高い高性能AIの活用が期待されます。

研究チームは、SRLで基礎的な推論能力を教えた後に、既存の強化学習でさらに性能を磨き上げるという組み合わせが最も効果的であることも発見しました。この「SRL第一主義」のアプローチは、高精度が求められる専門AIを構築するための新たな標準となるかもしれません。今後の発展が注目されます。

Weibo、低コスト小型AIで巨大モデル超え性能

低コストで巨大モデル超え

Weibo公開の15億パラメータLLM
後訓練コストはわずか7800ドル
数学・コードで巨大モデルを凌駕
商用利用可能なMITライセンス

新訓練手法と企業への示唆

新手法「SSP」で効率的な学習
多様な解を探求し最適解を増幅
エッジデバイスにも搭載可能
推論コストの大幅な削減を実現

中国のSNS大手Weiboが、オープンソースの小規模言語モデル(LLM)「VibeThinker-1.5B」を発表しました。このモデルはわずか15億パラメータと小型ながら、数学コーディング推論タスクで数百倍規模のモデルを凌駕する性能を達成。後訓練にかかった費用はわずか7800ドル(約120万円)で、AI開発における「規模の経済」という常識を覆す可能性を秘めています。

VibeThinker-1.5Bの性能は、多くのベンチマークで証明されています。特に数学コーディングの分野では、6710億パラメータのDeepSeek R1や、Anthropic社のClaude Opus 4といった巨大モデルと互角以上のスコアを記録しました。これは、モデルの性能がパラメータ数だけで決まるわけではないことを明確に示しています。

この驚異的な性能の背景には、「SSP(Spectrum-to-Signal Principle)」と呼ばれる独自の訓練手法があります。この手法は、学習を2つの段階に分けます。まず、教師ありファインチューニング(SFT)で多様な正解候補を生成。次に、強化学習(RL)を用いてその中から最も確からしい解を特定し、増幅させます。

SSPは、大規模なパラメータに頼らずとも、モデルが推論の「探索空間」を効率的に探ることを可能にします。最初に幅広い可能性(スペクトル)を探り、そこから最も強い信号(シグナル)を見つけ出すアプローチにより、小規模なモデルでも高い論理的思考力を獲得できるのです。これはAI開発のコスト構造を大きく変える可能性があります。

企業にとって、このモデルは非常に魅力的です。小型であるため、スマートフォンや車載システムなどのエッジデバイスにも搭載可能。推論コストは大規模モデルの20分の1から70分の1にまで削減できると試算されています。これにより、これまでコスト面で導入が難しかった高度なAI機能の実用化が加速するでしょう。

VibeThinker-1.5Bの登場は、AI開発のトレンドがパラメータ数の競争から、より効率的で洗練された訓練手法へと移行しつつあることを示唆しています。コスト、速度、そして制御のしやすさを求める企業にとって、このモデルは実用的なAI導入に向けた強力な選択肢となることは間違いありません。

AIがデバッグ自動化、DoorDashの工数1000時間削減

強化学習で障害原因を特定

システム全体のナレッジグラフを構築
SREの調査フローを数分で再現
調査のたびに学習し精度が向上

導入企業での圧倒的な成果

DoorDashで年間1000時間の工数削減
収益インパクトは数百万ドル規模
Foursquareで診断時間を90%短縮
AI生成コードのデバッグ危機に対応

Deductive AI社は2025年11月12日、ソフトウェアのデバッグや障害解析を自動化するAIプラットフォームを正式発表し、シードラウンドで750万ドル(約11億円)を調達しました。強化学習を用いたAIエージェントが、複雑なシステムの障害原因を数分で特定します。既に大手DoorDashでは年間1,000時間以上のエンジニア工数を削減しており、AIによるコード生成が加速する中で深刻化する「デバッグ危機」の解決策として注目されています。

なぜ今、このようなツールが求められるのでしょうか。背景には、AIコーディングアシスタントの普及があります。自然言語で手軽にコードを生成できる「Vibe codingが広まる一方、生成されたコードは保守性が低く、デバッグはますます困難になっています。ある調査では、エンジニア業務時間の最大50%をデバッグに費やしていると報告されており、この生産性のボトルネック解消が急務となっています。

Deductive AIの核心は、強化学習で訓練されたAIエージェントです。システムはコードやログから関係性をマッピングした「ナレッジグラフ」を構築し、障害発生時には複数のエージェントが連携して根本原因を突き止めます。既存の監視ツールが「何が起きたか」を示すのに対し、同社のAIは「なぜ起きたか」というコードレベルの因果関係まで解明する点が大きな違いです。

その効果は、導入企業で既に実証されています。食品デリバリー大手DoorDashでは、同社のAIを導入し、これまで数時間かかっていた障害調査が数分で完了するようになりました。結果として、年間1,000時間以上に相当するエンジニア生産性を向上させ、収益への貢献も数百万ドル規模に上ると試算されています。

位置情報サービスのFoursquare社でも同様の成果が見られます。データ処理基盤であるApache Sparkのジョブ失敗原因の特定にかかる時間を90%削減することに成功。これにより、年間27万5,000ドル以上のコスト削減を実現しています。エンジニアは障害対応から解放され、より付加価値の高い業務に集中できるようになりました。

創業チームは、DatabricksやThoughtSpotといったデータ基盤のトップ企業出身者で構成され、技術的な信頼性は折り紙付きです。同社は今後、障害発生後の対応だけでなく、問題発生を予測する予防的な機能の開発も進める計画です。AIがコードを生成し、そのコードが引き起こす問題を別のAIが解決するという、新たなソフトウェア開発サイクルが始まろうとしています。

MITとIBM、次世代AIの信頼・効率・知識基盤を強化

AIの信頼性を高める

LLM回答の不確実性を精密に評価
ナレッジグラフ連携で幻覚を抑制
強化学習データ検索を効率化

計算効率と表現力の向上

Transformer計算コストを削減
線形アテンションで処理を高速化
新方式の位置エンコーディング表現力を向上

視覚データの高度な活用

合成チャートでVLM学習を促進
画像から描画コードを自動生成・改良

マサチューセッツ工科大学(MIT)とIBMの研究者らが、AIの信頼性、効率性、知識に基づいた推論能力を向上させる複数の研究プロジェクトを推進しています。博士課程の学生が中心となり、LLMの回答の不確実性を評価する新手法や、計算コストを削減する次世代アーキテクチャなどを開発。これらの成果は、より実用的で価値の高いAIモデルを様々な分野へ展開することを目的としています。

企業のAI活用における最大の課題は、その回答が信頼できるかという点です。これに対し、研究チームはLLMの回答の不確実性を評価する新たな手法を開発しました。これは評価用モデル(プローブ)自体の信頼性を測り、誤った警告を防ぎます。さらに、外部のナレッジグラフと連携させ、AIの「幻覚」を抑制する強化学習フレームワークも構築しています。

大規模モデルの運用には膨大な計算コストが伴います。特にTransformerモデルは、入力データが長くなるほど計算量が爆発的に増加する課題を抱えていました。研究チームは線形アテンションなどの技術を採用することでこの問題を解決。より少ない計算資源で、より長いシーケンスを高速に処理できる次世代アーキテクチャの開発を進めています。

人間のように視覚情報を深く理解するAIも研究対象です。あるチームは、グラフやチャートを読み解き、それを生成するPythonコードを出力する合成データセット「ChartGen」を開発。これにより、財務・科学レポートの自動分析が期待できます。また、デザイン画像を基に質感を再現するプログラムを自己改良しながら生成するシステムも構築しています。

これらの研究は、それぞれがAIの核心的な課題に取り組んでいます。信頼性の確保、効率性の向上、そしてマルチモーダルな推論能力の強化は、AIが実験段階を終え、現実世界のビジネスや科学の現場で不可欠なツールとなるための重要な布石です。個々の技術革新が連携し、より強力で費用対効果の高いAIシステムの実現を加速させるでしょう。

人間がAIロボを教育、中国発の製造業革命

AIロボット訓練の新手法

人間による遠隔操作で基礎教育
強化学習で自律的にスキル向上
新規作業の訓練を約10分で完了
頻繁な生産ライン変更にも迅速対応

製造業へのインパクト

複雑な組立作業の自動化を推進
生産性向上と人手不足への対応
中国の製造基盤が競争優位性

中国・上海のロボット新興企業AgiBotが、人間による遠隔操作とAIの強化学習を組み合わせ、産業用ロボットに複雑な製造タスクを高速で習得させる新技術を開発しました。この手法により、従来は自動化が困難だった精密作業をロボットが担えるようになり、製造業の生産性向上に大きな影響を与える可能性があります。

同社の「実世界強化学習」と呼ばれるソフトウェアは、まず人間の作業者がロボットを遠隔操作して手本を示します。これを基礎データとして、ロボットは自律的に試行錯誤を重ねてスキルを向上させます。このアプローチにより、新しいタスクの訓練をわずか10分程度で完了できるといいます。

製造現場の生産ラインは、製品の仕様変更などで頻繁に組み替えられます。ロボットが新しい作業を迅速に習得できる能力は、人間と協調しながら変化に柔軟に対応するために不可欠です。これにより、ロボット導入のROI(投資対効果)が大幅に高まることが期待されます。

この高速な学習の裏側には、多くの「人間の教師」が存在します。AgiBotはロボット学習センターを設け、AIモデルにスキルを教え込むために人間がロボットを遠隔操作しています。高品質なロボット訓練用データの需要は世界的に高まっており、新たな雇用を生む可能性も指摘されています。

カーネギーメロン大学の専門家もAgiBotの技術を最先端と評価しています。中国は世界最大の産業用ロボット市場であり、巨大な製造基盤とサプライチェーンが、同国スタートアップ強力な競争優位性となっています。米国でも同様の技術開発が進んでおり、競争は激化しています。

AIを活用したロボットの学習ループは、米国などが製造業の国内回帰(リショアリング)を目指す上で習得が不可欠な技術とみられています。AgiBotの躍進は、AIとロボット工学を核とした次世代の製造業の主導権争いが、すでに始まっていることを示唆しているのかもしれません。

AI評価AI、成功の鍵は技術より組織の合意形成

AI評価を阻む「組織の壁」

ステークホルダー間の品質基準の不一致
少数専門家暗黙知の形式知化
評価システムの大規模な展開

信頼できるAI Judge構築法

曖昧な基準を具体的Judgeに分解
20-30の事例で高速にモデル構築
評価者間信頼性スコアで認識を統一
Judgeを継続的に進化させる資産へ

Databricks社は、AIがAIを評価する「AI Judge」構築における最大の障壁が、技術ではなく組織的な課題であるとの調査結果を発表しました。多くの企業でAI導入を妨げているのは、品質基準の合意形成や専門知識の形式知化といった「人の問題」です。同社は解決策として、実践的なフレームワーク「Judge Builder」を提供し、企業のAI活用を新たな段階へと導いています。

AIモデルの性能自体は、もはや企業導入のボトルネックではありません。DatabricksのAIチーフサイエンティストは「モデルに何をさせたいか、そしてそれができたかをどう知るか」が真の課題だと指摘します。特にステークホルダー間で品質の定義が異なることは、技術では解決できない根深い「人の問題」なのです。

AIでAIを評価する際には、「評価AIの品質は誰が保証するのか」という「ウロボロスの問題」がつきまといます。この循環的な課題に対し、Databricksは人間の専門家による評価との「距離」を最小化するアプローチを提唱。これによりAI Judgeは人間の専門家の代理として信頼性を獲得し、大規模な評価を可能にします。

驚くべきことに、組織内の専門家同士でさえ、品質に対する意見は一致しないことが多いです。そこで有効なのが、少人数で評価例に注釈を付け、評価者間信頼性スコアを確認する手法です。これにより認識のズレを早期に発見・修正でき、ノイズの少ない高品質な学習データを確保して、Judgeの性能を直接的に向上させます。

優れたJudgeを構築する秘訣は、曖昧な基準を具体的な評価項目に分解することです。例えば「良い回答」ではなく、「事実性」「簡潔さ」を個別に評価するJudgeを作成します。また、必要なデータは意見が割れる20〜30のエッジケースで十分であり、わずか数時間で高精度なJudgeを構築することが可能です。

Judgeの導入は、AI投資の拡大に直結します。ある顧客は導入後にAIへの支出を数億円規模に増やし、以前は躊躇していた強化学習にも着手しました。AI Judgeは一度作って終わりではなく、ビジネスと共に進化する「資産」です。まずは影響の大きい領域から着手し、本番データで定期的に見直すことが成功への鍵となります。

AI開発環境Cursor、4倍高速な自社モデル投入

独自モデル「Composer」

競合比4倍の高速性を主張
強化学習とMoEアーキテクチャ採用
知能と速度のバランスを両立

IDEもメジャー更新

新バージョン「Cursor 2.0」を公開
複数AIエージェントの並列実行
VS Codeベースで強力なAI統合

AI統合開発環境(IDE)を開発するCursor社は2025年10月31日、「Cursor 2.0」を発表しました。今回の目玉は、自社開発の高速コーディングモデル「Composer」と、複数のAIエージェントを並行してタスク処理できる新インターフェースです。開発者生産性を飛躍的に高めることを目指します。

新モデル「Composer」の最大の特徴は、その圧倒的な速度です。同社は「同等の知能を持つモデルと比較して4倍高速」と主張。コーディング中の思考を妨げない、スムーズなAIとの対話を実現し、エンジニア生産性向上に直結するとしています。

Composerの高性能は、強化学習混合専門家(MoE)アーキテクチャが支えています。複数の専門家モデルを組み合わせることで、複雑なタスクに対し効率的かつ高品質なコード生成を可能にします。これは最新のAI開発トレンドを反映した設計と言えるでしょう。

IDEの新機能も見逃せません。マルチエージェントインターフェースの搭載により、複数のAIエージェントを同時に実行し、それぞれに異なるタスクを割り当てることが可能になりました。コード生成とデバッグを並行して進めるなど、開発ワークフロー全体の効率化が期待できます。

これまで他社製AIモデルに依存してきたCursorですが、今回の自社モデル投入は大きな転換点です。他社依存からの脱却は、独自の開発思想に基づく最適化を進める強い意志の表れであり、AI開発ツール市場における競争激化を予感させます。

Cursor、4倍速の自社製AI「Composer」を投入

自社製LLMの驚異的な性能

同等モデル比で4倍の高速性
フロンティア級の知能を維持
生成速度は毎秒250トークン
30秒未満での高速な対話

強化学習で「現場」を再現

静的データでなく実タスクで訓練
本番同様のツール群を使用
テストやエラー修正も自律実行
Cursor 2.0で複数エージェント協調

AIコーディングツール「Cursor」を開発するAnysphere社は、初の自社製大規模言語モデル(LLM)「Composer」を発表しました。Cursor 2.0プラットフォームの核となるこのモデルは、同等レベルの知能を持つ他社モデルと比較して4倍の速度を誇り、自律型AIエージェントによる開発ワークフローに最適化されています。開発者生産性向上を強力に後押しする存在となりそうです。

Composerの最大の特徴はその圧倒的な処理速度です。毎秒250トークンという高速なコード生成を実現し、ほとんどの対話を30秒未満で完了させます。社内ベンチマークでは、最先端の知能を維持しながら、テスト対象のモデルクラスの中で最高の生成速度を記録。速度と賢さの両立が、開発者の思考を妨げないスムーズな体験を提供します。

この高性能を支えるのが、強化学習(RL)と混合専門家(MoE)アーキテクチャです。従来のLLMが静的なコードデータセットから学習するのに対し、Composerは実際の開発環境内で訓練されました。ファイル編集や検索、ターミナル操作といった本番同様のタスクを繰り返し解くことで、より実践的な能力を磨き上げています。

訓練プロセスを通じて、Composerは単なるコード生成にとどまらない創発的な振る舞いを獲得しました。例えば、自律的にユニットテストを実行して品質を確認したり、リンター(静的解析ツール)が検出したエラーを修正したりします。これは、AIが開発プロジェクトの文脈を深く理解している証左と言えるでしょう。

Composerは、刷新された開発環境「Cursor 2.0」と完全に統合されています。新環境では最大8体のAIエージェントが並行して作業するマルチエージェント開発が可能になり、Composerがその中核を担います。開発者は複数のAIによる提案を比較検討し、最適なコードを選択できるようになります。

この「エージェント駆動型」のアプローチは、GitHub Copilotのような受動的なコード補完ツールとは一線を画します。Composerは開発者の指示に対し、自ら計画を立て、コーディング、テスト、レビューまでを一気通貫で行う能動的なパートナーです。AIとの協業スタイルに新たな標準を提示するものと言えます。

Composerの登場は、AIが単なる補助ツールから、開発チームの一員として自律的に貢献する未来を予感させます。その圧倒的な速度と実践的な能力は、企業のソフトウェア開発における生産性、品質、そして収益性を新たな次元へと引き上げる強力な武器となる可能性を秘めています。

AI訓練のMercor、評価額5倍の100億ドルに

驚異的な企業価値

評価額100億ドルに到達
前回の評価額から5倍に急増
シリーズCで3.5億ドルを調達

独自のビジネスモデル

AI訓練向けドメイン専門家を提供

今後の成長戦略

人材ネットワークのさらなる拡大
マッチングシステムの高度化

AIモデルの訓練に専門家を提供するMercor社が、シリーズCラウンドで3.5億ドルの資金調達を実施し、企業評価額が100億ドルに達したことを発表しました。この評価額は2月の前回ラウンドからわずか8ヶ月で5倍に急増しており、AI業界の旺盛な需要を象徴しています。今回のラウンドも、既存投資家のFelicis Venturesが主導しました。

同社の強みは、科学者や医師、弁護士といった高度な専門知識を持つ人材をAI開発企業に繋ぐ独自のビジネスモデルにあります。これらの専門家が、人間のフィードバックを反映させる強化学習(RLHF)などを担うことで、AIモデルの精度と信頼性を飛躍的に向上させています。

この急成長の背景には、OpenAIなどの大手AIラボが、データラベリングで競合するScale AIとの関係を縮小したことがあります。Mercor社はこの市場機会を捉え、代替サービスとして急速にシェアを拡大。年間経常収益(ARR)は5億ドル達成が目前に迫る勢いです。

現在、Mercor社のプラットフォームには3万人を超える専門家が登録しており、その平均時給は85ドル以上にのぼります。同社は契約する専門家に対し、1日あたり総額150万ドル以上を支払っていると公表しており、その事業規模の大きさがうかがえます。

今回調達した資金は、主に3つの分野に投じられます。①人材ネットワークのさらなる拡大、②クライアントと専門家を繋ぐマッチングシステムの改善、そして③社内プロセスを自動化する新製品の開発です。AI開発の高度化に伴い、同社の役割はますます重要になるでしょう。

アント、1兆パラメータAI公開 強化学習の壁を突破

1兆パラメータモデルRing-1T

中国アントグループが開発
1兆パラメータのオープンソース推論モデル
数学・論理・コード生成に特化
ベンチマークGPT-5に次ぐ性能

独自技術で学習効率化

強化学習ボトルネックを解決
学習を安定化させる新手法「IcePop」
GPU効率を高める「C3PO++」を開発
激化する米中AI覇権争いの象徴

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

GoogleのAI、核融合炉を制御 CFSと提携

AIで核融合開発を加速

AIでプラズマを最適制御
高速シミュレーターを活用
クリーンエネルギー実用化へ

次世代核融合炉「SPARC」

CFSが開発中の実験炉
史上初の純エネルギー生成目標
高温超電導磁石が鍵

AIの具体的な役割

数百万回の仮想実験を実施
エネルギー効率の最大化
複雑なリアルタイム制御の実現

Google傘下のAI企業DeepMindは2025年10月16日、核融合スタートアップのCommonwealth Fusion Systems(CFS)との研究提携を発表しました。DeepMindのAI技術と高速シミュレーター「TORAX」を用いて、CFSが建設中の次世代核融合炉「SPARC」の運転を最適化します。クリーンで無限のエネルギー源とされる核融合の実用化を、AIの力で加速させることが狙いです。

提携の核心は、AIによるプラズマ制御の高度化にあります。核融合炉では1億度を超えるプラズマを強力な磁場で閉じ込める必要がありますが、その挙動は極めて複雑で予測困難です。DeepMindは過去に強化学習を用いてプラズマ形状の安定化に成功しており、その知見をCFSの先進的なハードウェアに応用し、より高度な制御を目指します。

具体的な協力分野の一つが、高速シミュレーター「TORAX」の活用です。これにより、CFSは実験炉「SPARC」が実際に稼働する前に、数百万通りもの仮想実験を実施できます。最適な運転計画を事前に探ることで、貴重な実験時間とリソースを節約し、開発全体のスピードアップを図ることが可能になります。

さらにAIは、エネルギー生成を最大化するための「最適解」を膨大な選択肢から見つけ出します。磁場コイルの電流や燃料噴射など、無数の変数を調整する複雑な作業は人手では限界があります。将来的には、AIが複数の制約を考慮しながらリアルタイムで炉を自律制御する「AIパイロット」の開発も視野に入れています。

提携先のCFSは、マサチューセッツ工科大学発の有力スタートアップです。現在建設中の「SPARC」は、高温超電導磁石を用いて小型化と高効率化を実現し、投入した以上のエネルギーを生み出す「ネット・エネルギーを史上初めて達成することが期待される、世界で最も注目されるプロジェクトの一つです。

GoogleはCFSへの出資に加え、将来の電力購入契約も締結済みです。AIの普及で電力需要が急増する中、クリーンで安定したエネルギー源の確保は巨大テック企業にとって喫緊の経営課題となっています。今回の提携は、その解決策として核融合に賭けるGoogleの強い意志の表れと言えるでしょう。

保険業務をAIで刷新、Liberateが75億円調達

AIエージェントの提供価値

売上15%増、コスト23%削減を実現
請求対応時間を30時間から30秒に短縮
24時間365日の販売・顧客対応
既存システムと連携し業務を自動化

大型資金調達の概要

シリーズBで5000万ドルを調達
企業評価額3億ドル(約450億円)
AIの推論能力向上と事業拡大に投資
Battery Venturesがラウンドを主導

AIスタートアップのLiberate社が、シリーズBラウンドで5000万ドル(約75億円)を調達したと発表しました。企業評価額は3億ドル(約450億円)に達します。同社は音声AIと推論ベースのAIエージェントを組み合わせ、保険の販売から請求処理までのバックオフィス業務を自動化するシステムを開発。運営コストの増大や旧式システムに悩む保険業界の課題解決を目指します。

Liberateの技術の核心は、エンドツーエンドで業務を完遂するAIエージェントです。顧客対応の最前線では音声AIアシスタント「Nicole」が電話応対し、その裏でAIエージェント群が既存の保険システムと連携。見積もり作成、契約更新、保険金請求処理といった定型業務を人の介在なしに実行します。

導入効果は既に数字で示されています。顧客企業は平均で売上が15%増加し、運用コストを23%削減することに成功。ある事例では、ハリケーン関連の保険金請求対応にかかる時間が従来の30時間からわずか30秒へと劇的に短縮されました。人間の担当者が不在の時間帯でも販売機会を逃しません。

高い性能と信頼性を両立させる仕組みも特徴です。AIは規制の厳しい保険業界の対話に特化した強化学習で訓練されています。さらに「Supervisor」と呼ばれる独自ツールがAIと顧客の全やり取りを監視。AIの応答が不適切と判断された場合は、即座に人間の担当者にエスカレーションする安全装置も備えています。

今回の資金調達は、著名VCのBattery Venturesが主導しました。投資家は、Liberateの技術を「単に対話するだけでなく、システムと連携してタスクを最後までやり遂げる能力」と高く評価。多くの保険会社が本格的なDXへと舵を切る中、同社の存在感はますます高まっています。

Liberateは調達した資金を、AIの推論能力のさらなる向上と、グローバルな事業展開の加速に充てる計画です。創業3年の急成長企業が、伝統的な保険業界の生産性と収益性をいかに変革していくか、市場の注目が集まります。

MIT技術でAIが自律的に進化へ

SEAL技術の概要

LLMが自律的に自己改善
合成データを生成し学習

具体的な性能

知識タスクで大幅な性能向上
GPT-4.1が生成したデータを上回る
フューショット学習でも成功

今後の課題と展望

災害的忘却リスク
計算コストが課題
モデルの大型化で適応能力向上

マサチューセッツ工科大学(MIT)の研究チームが、大規模言語モデル(LLM)が自らを改善する技術「SEAL」の改良版を公開し、AIの自律的な進化が現実味を帯びてきました。この技術は、LLMが自ら合成データを生成してファインチューニングを行うことで、外部からの継続的なデータ供給や人間の介入なしに性能を向上させることを可能にします。

SEALの核心は、モデルが「自己編集」と呼ばれる自然言語の指示を生成し、それに基づいて自らの重みを更新する点にあります。これは、人間が学習内容を再構成して理解を深めるプロセスに似ており、従来のモデルがデータをそのまま受け身で学習するのとは一線を画します。

性能評価では、SEALは目覚ましい成果を上げています。新たな事実知識を取り込むタスクでは、正答率を33.5%から47.0%へと向上させ、これはGPT-4.1が生成したデータを使った場合を上回りました。また、少数の例から学ぶフューショット学習でも、成功率を20%から72.5%に引き上げています。

技術的には、SEALは「内側ループ」で自己編集による教師ありファインチューニングを行い、「外側ループ」で強化学習によってより有益な編集を生成する方策を学ぶ、という二重ループ構造を採用しています。計算効率を高めるため、効率的なファインチューニング手法であるLoRAが活用されています。

しかし、課題も残されています。新たな情報を学習する際に、以前に学習した能力が低下する「災害的忘却」のリスクや、一つの編集を評価するのに30~45秒かかる計算コストの高さが挙げられます。研究チームは、強化学習がこの忘却を緩和する可能性があると指摘しています。

それでも、この技術がもたらすインパクトは計り知れません。AIコミュニティからは「凍結された重みの時代の終わり」との声も上がっており、モデルが環境の変化に合わせて進化し続ける、より適応的でエージェント的なAIシステムへの道を開くものと期待されています。

NVIDIA、LLMの思考力を事前学習で鍛える新手法

思考を促す新訓練手法

モデルが自ら思考を生成
思考の有用性に応じて報酬を付与
外部検証者が不要な自己完結型

推論能力の大幅な向上

数学・科学分野で高スコアを記録
少ないデータで高い性能を発揮
企業の高信頼性ワークフローに応用

NVIDIAの研究者チームが、大規模言語モデル(LLM)の訓練手法を根本から変える可能性のある新技術「強化学習事前学習(RLP)」を発表しました。この手法は、従来は訓練の最終段階で行われていた強化学習を、大量のテキストデータを読み込む事前学習の初期段階に統合するものです。これにより、モデルは自ら「思考」する能力を早期に獲得し、複雑な推論タスクにおける性能が飛躍的に向上することが示されました。

従来のLLM開発では、まず「次の単語を予測する」という単純なタスクを通じて、膨大なテキストデータから言語の基本構造を学習させます。その後に、人間によるフィードバックや特定のデータセットを用いたファインチューニング(微調整)で、思考の連鎖CoT)のような高度な推論能力を教え込むのが一般的でした。しかし、この逐次的なプロセスでは、モデルが深い思考力を初期から身につけることが難しいという課題がありました。

新手法RLPは、このプロセスを刷新します。モデルは次の単語を予測する前に、まず内部で「思考」や推論の連鎖を生成します。そして、その思考が予測精度をどれだけ向上させたかに基づいて、自律的に報酬を受け取ります。思考が予測に役立った場合にのみ正の報酬が与えられるため、モデルは人間によるラベル付けや外部の検証者を必要とせず、有用な思考パターンを効率的に学習していきます。

実験では、RLPを用いて訓練されたモデルが、数学や科学といった高度な推論を要するベンチマークで、従来手法で訓練されたモデルを一貫して上回る性能を示しました。特に注目すべきは、ファインチューニング後もこの性能向上が失われることなく、むしろ相乗効果を生み出す点です。これは、後の学習で以前の知識を忘れてしまう「破滅的忘却」という課題を克服し、より堅牢な基礎能力を構築できることを意味します。

この技術は、企業のワークフローにも大きな影響を与える可能性があります。例えば、金融分析や法務文書の要約など、複数ステップの論理的な思考が求められる業務において、AIの信頼性を高めることが期待されます。NVIDIAの研究担当ヴァイスプレジデントであるブライアン・カタンザロ氏は、「RLPは既存のファインチューニングを置き換えるのではなく、その効果を増幅させるものだ」と述べ、より強力なモデルを構築するための新たな基盤になるとの考えを示しています。

RLPは、単なる訓練コストの削減技術にとどまりません。LLMの学習プロセス自体を、受動的な単語予測から、より能動的で好奇心旺盛な「思考」の探求へとシフトさせるものです。このアプローチは、AIが世界の情報をどのように見て、それについてどう考えるかを教える新しい道筋を示唆しており、将来のAI開発における新たなスケーリングの軸となる可能性を秘めているのです。

高品質AIデータで新星、Datacurveが22億円調達

独自の人材獲得戦略

専門家向け報奨金制度
データ収集を消費者製品と定義
金銭より優れたUXを重視

ポストScale AI時代の潮流

巨人Scale AIのCEO退任が好機
複雑な強化学習データ需要増
ソフトウェア開発から多分野へ展開

注目の資金調達

シリーズAで1500万ドルを確保
著名VCAI企業の従業員も出資

AI向け高品質データを提供するスタートアップ、Datacurveが10月9日、シリーズAで1500万ドル(約22.5億円)の資金調達を発表しました。Yコンビネータ出身の同社は、業界最大手Scale AIの牙城を崩すべく、熟練エンジニアを惹きつける独自の報奨金制度と優れたユーザー体験を武器に、複雑化するAIの学習データ需要に応えます。

同社の強みは、専門家を惹きつける「バウンティハンター」制度です。高度なスキルを持つソフトウェアエンジニアに報奨金を支払い、質の高いデータセットを収集します。共同創業者のセレナ・ゲ氏は「これは単なるデータラベリング作業ではない。消費者向け製品として捉え、最高の体験を提供することに注力している」と語ります。

この動きの背景には、AIデータ市場の大きな変化があります。最大手Scale AIの創業者アレクサンダー・ワン氏がMetaへ移籍したことで、市場に好機が生まれたと投資家は見ています。また、AIモデルの高度化に伴い、単純なデータセットではなく、複雑な強化学習(RL)環境の構築に必要な、質・量ともに高いデータへの需要が急増しています。

今回の資金調達は、Chemistryが主導し、DeepMindVercelAnthropicOpenAIといった名だたる企業の従業員も参加しました。シードラウンドでは元Coinbase CTOのバラジ・スリニヴァサン氏も出資しており、技術と市場の両面から高い評価を得ていることが伺えます。

Datacurveはまずソフトウェアエンジニアリング分野で地位を確立し、将来的にはそのモデルを金融、マーケティング、医療などの専門分野へも展開する計画です。専門家自らのドメイン知識を活かせるインフラを構築することで、ポストトレーニングデータ収集の新たな標準を築くことを目指しています。

分散型強化学習でAIを民主化:Prime Intellectが挑むオープンLLM開発

AI開発のボトルネック解消

巨大企業に依存しないオープンLLM開発
AI能力拡張のボトルネック解消
強化学習(RL)を分散化しモデルを改善
INTELLECT-3など競争力あるモデル開発

分散型アプローチの仕組み

学習環境の構築をコミュニティに開放
特定のハードウェア非依存のトレーニング
専門知識が不要なAI開発の民主化
特定タスク向けエージェント創出を加速

スタートアップのPrime Intellectは、分散型強化学習(DRL)を活用し、競争力のあるオープンなフロンティア大規模言語モデル(LLM)「INTELLECT-3」を開発中です。これは、巨大テック企業に依存せず、世界中の多様なハードウェアを用いてAIモデルを構築し、AI開発を民主化することを目的としています。現在のAI界の二極化構造を変える可能性を秘めた動きとして注目されています。

今日、AIモデルの改善は、単純なデータや計算資源の増強だけでは難しくなっています。特に、プレトレーニング後の強化学習(RL)のプロセスが、モデルの能力拡張における最大のボトルネックです。このRLは通常、高度な専門知識と大量の計算資源が必要なため、これまで大手AI企業によってクローズドに行われてきました。

Prime Intellectは、この課題を打破するため、誰もが特定のタスクに特化した強化学習環境を作成できるフレームワークを提供しています。コミュニティと自社チームが作成した最良の環境を組み合わせることで、INTELLECT-3のチューニングを進めています。これにより、開発者手軽にRLを実行し、モデルの専門性を高めることが可能になります。

同社は以前にも分散型手法の有効性を示しています。2024年後半のINTELLECT-1、そして推論能力を向上させたINTELLECT-2をリリースし、分散型トレーニングの実現性を証明しました。Teslaの元AIチーム責任者であるアンドレイ・カーパシー氏も、Prime Intellectの強化学習環境の取り組みを「素晴らしいアイデア」として評価しています。

Prime Intellectの試みは、オープンソースAI市場における米国の存在感を高めることを目指しています。現在、オープンなフロンティアモデルは中国勢が優勢ですが、同社の技術が普及すれば、スタートアップ開発者が自ら高度なAIを構築・修正できるようになります。これにより、多種多様なタスクに特化した新たなAIエージェント製品の創出が期待されます。

AIでロボット訓練環境を革新:物理法則守る多様な仮想世界を超速生成

訓練環境の課題克服

実機訓練の時間とコストを大幅削減
従来のシミュレーション物理的な不正確さを解消

コア技術とリアリティ担保

生成AI(拡散モデル)を活用した3D仮想環境の創出
MCTS適用により複雑で多様な配置を自動設計
フォークが皿を貫通しないなど物理的正確性を保証

高精度なシーン生成

テキスト指示で目的通りのシーンを高精度に生成
将来は開閉可能な物体や新規オブジェクトにも対応

マサチューセッツ工科大学(MIT)とトヨタ研究所は、ロボットの訓練を革新する新しい生成AI技術「Steerable Scene Generation(ステアラブル・シーン生成)」を開発しました。このシステムは、キッチンやレストランなど、多様な実世界の仮想環境を、物理法則にのっとりながら、手作業の数倍の効率で自動生成します。これにより、時間とコストがかかる実機訓練や、不正確さが課題だった従来のシミュレーションの壁を破り、ロボット開発の生産性を飛躍的に高めることが期待されています。

ロボットが現実世界で有用なアシスタントとなるためには、膨大で多様なデモンストレーションデータが必要です。しかし、実際のロボットでデータ収集するのは非効率的です。従来のシミュレーション環境作成は、手作業でデジタル環境を設計するか、非現実的な物理現象(オブジェクトの貫通など)を含むAI生成に頼るしかありませんでした。「ステアラブル・シーン生成」は、この訓練データの多様性とリアリティの欠如という長年のボトルネックを解消することを目指しています。

本技術の中核は、生成AIの拡散モデルを「ステアリング」(誘導)することです。特に注目すべきは、ゲームAIとして有名な「モンテカルロ木探索(MCTS)」を3Dシーン生成タスクに初めて適用した点です。MCTSは、シーン生成を連続的な意思決定プロセスと捉え、部分的なシーンを段階的に改良します。これにより、モデルが学習したデータセットに含まれるよりもはるかに複雑で、多様性の高いシーンを自動で作り出します。

仮想環境のリアルさは、ロボットが実世界で動作するために不可欠です。このシステムは、物理的な正確性を徹底的に保証します。例えば、テーブル上のフォークが皿を突き抜ける「クリッピング」といった3Dグラフィックス特有の不具合を防ぎます。訓練では、4400万件以上の3Dルームデータを利用しており、これが実世界に近いインタラクションをシミュレートする基盤となっています。

本システムは、強化学習を用いた試行錯誤や、ユーザーが直接テキストプロンプトを入力することで、柔軟に利用できます。「キッチンにリンゴ4個とボウルを」といった具体的指示に対しても、パントリーの棚配置で98%、散らかった朝食テーブルで86%という高い精度でシーンを構築することに成功しています。これは既存の類似手法に比べ、10%以上の改善であり、ロボット工学者が真に利用可能なデータを提供します。

研究者らは今後、この技術をさらに進化させ、既存のライブラリに頼らず、AIが新しいオブジェクト自体を生み出すことや、キャビネットや瓶といった「開閉可能な関節オブジェクト」を組み込むことを計画しています。このインフラが普及すれば、多様でリアルな訓練データが大量に供給され、器用なロボットの実用化に向けた大きな一歩となるでしょう。ロボット開発の効率化と市場投入の加速に直結する重要な進展です。

Anthropic、元Stripe CTOを迎え、エンタープライズ向け基盤強化へ

新CTOが担う役割

グローバルなエンタープライズ需要に対応
製品、インフラ推論全て統括
Claude信頼性・スケーラビリティ確保
世界水準のインフラ構築への注力

パティル氏のキャリア資産

直近はStripe最高技術責任者(CTO)
Stripe数兆ドル規模の取引を支援
AWSやMSなど大手クラウドでの経験
20年超のミッションクリティカルな構築実績

AI大手Anthropicは、元Stripeの最高技術責任者(CTO)であるラフル・パティル(Rahul Patil)氏を新たなCTOとして迎えました。これは、急速に増大するエンタープライズ顧客の需要に応えるため、Claudeの大規模かつ信頼性の高いインフラ基盤を構築することを最優先する、戦略的な人事です。

パティル氏は、製品、コンピューティング、インフラストラクチャ、推論、データサイエンス、セキュリティを含むエンジニアリング組織全体を監督します。彼のミッションは、Anthropicが持つ研究の優位性を活かしつつ、Claudeグローバル企業が依存できる堅牢なプラットフォームへとスケールさせることです。

新CTOは、20年以上にわたり業界をリードするインフラを構築してきた実績があります。特にStripeでは、年間数兆ドルを処理する技術組織を指導しました。この経験は、高い可用性とセキュリティが求められる金融技術の領域で、ミッションクリティカルなシステムを構築する専門知識を示しています。

共同創業者兼社長のダニエラ・アモデイ氏は、Anthropicがすでに30万を超えるビジネス顧客にサービスを提供している点を強調しました。パティル氏の採用は、Claudeを「企業向けをリードするインテリジェンスプラットフォーム」に位置づけるという、同社の強いコミットメントを裏付けるものです。

なお、共同創業者であり前CTOのサム・マキャンディッシュ氏は、Chief Architect(チーフアーキテクト)に就任しました。彼は、大規模モデルトレーニング、研究生産性、RL(強化学習インフラストラクチャといった根幹の研究開発分野に専念し、技術的な進化を引き続き主導します。

AI性能向上を分ける「強化学習の格差」:テスト容易性が鍵

AI進化の二極化

AIの進歩は均等ではない
コーディング系スキルは急激に向上
メール作成など主観的スキルは停滞
強化学習(RL)が最大の推進力

性能向上を左右する要素

計測可能性が進化速度を決定
RLは明確な合否判定で機能
自動採点可能なタスクに集中投資
テスト可能なプロセスは製品化に成功

現在、AIの性能進化に大きな偏りが生じており、専門家の間で「強化学習の格差(Reinforcement Gap)」として注目されています。これは、AI開発の主要な推進力である強化学習(RL)が、自動で計測・評価できるスキルを優先的に急伸させているためです。コーディング支援ツールのようにテスト容易性の高い分野は劇的に進化する一方、文章作成など主観的なタスクは進捗が停滞しています。

この格差の背景には、RLの性質があります。RLが最も効果を発揮するのは、明確な「合格・不合格」の指標が存在する場合です。この仕組みにより、AIは人間の介入を必要とせず、数十億回規模の自動テストを繰り返すことができます。結果として、バグ修正や競争数学などのテストが容易なスキルは急速に性能を向上させています。

特にソフトウェア開発は、RLにとって理想的な対象です。元々、コードのユニットテストやセキュリティテストなど、システム化された検証プロセスが確立されています。この既存のテスト機構を流用することで、AIが生成したコードの検証と大規模なRL学習が効率的に進められています。

対照的に、良質なメールや洗練されたチャットボットの応答は、本質的に主観的であり、大規模な計測が困難です。ただし、全てのタスクが「テスト容易」か「困難」に二分されるわけではありません。例えば、財務報告書のような分野でも、適切な資本投下により新たなテストキット構築は技術的に可能と見られています。

この強化学習の格差は、今後のAI製品化の是非を決定づける要因となります。予測が難しいのは、テスト容易性が後から判明するケースです。OpenAISora 2モデルによる動画生成の進化は、物理法則の遵守など、潜在的なテスト基準を確立した結果であり、驚異的な進歩を遂げました。

RLがAI開発の中心であり続ける限り、この格差は拡大し、経済全体に重大な影響を与えます。もしあるプロセスがRLの「正しい側」に分類されれば、その分野での自動化は成功する可能性が高いため、今その仕事に従事している人々はキャリアの再考を迫られるかもしれません。

アルトマン氏、GPT-5批判に反論「AGIへの道は順調」

「GPT-5」への逆風

期待外れとの厳しい評価
AIブーム終焉論の台頭
スケーリング則の限界指摘

OpenAIの反論

専門分野での画期的な進歩
進歩の本質は強化学習
GPT-6以降で更なる飛躍を約束
AGIは目的地でなくプロセス

OpenAIサム・アルトマンCEOが、8月に発表された「GPT-5」への厳しい批判に反論しました。同氏はWIRED誌のインタビューで、初期の評判は芳しくなかったと認めつつも、GPT-5AGI(汎用人工知知能)への探求において重要な一歩であり、その進歩は計画通りであると強調。AIブームの終焉を囁く声に真っ向から異を唱えました。

GPT-5の発表は、多くの専門家や利用者から「期待外れ」と評されました。デモでの不具合や、前モデルからの飛躍が感じられないという声が相次ぎ、「AIブームは終わった」「スケーリング則は限界に達した」との懐疑論が噴出する事態となったのです。

これに対しアルトマン氏は、GPT-5の真価は科学やコーディングといった専門分野で発揮されると主張します。「物理学の重要な問題を解いた」「生物学者の発見を助けた」など、AIが科学的発見を加速させ始めた初のモデルだとし、その重要性を訴えています。

では、なぜ評価が分かれたのでしょうか。OpenAI側は、GPT-4から5への進化の間に頻繁なアップデートがあったため、ジャンプが小さく見えたと分析。また、今回の進歩の核は巨大なデータセットではなく、専門家による強化学習にあったと説明しています。

アルトマン氏は、スケーリング仮説が終わったとの見方を強く否定。同社は数十億ドル規模のデータセンター建設を進めており、計算能力の増強が次なる飛躍に不可欠だと断言します。「GPT-6は5より、GPT-7は6より格段に良くなる」と自信を見せています。

興味深いのは、AGIの定義に関する変化です。OpenAIAGIを「特定の到達点」ではなく、「経済や社会を変革し続ける終わりのないプロセス」と捉え直しています。GPT-5はその過程における、科学的進歩の可能性を示す「かすかな光」だと位置づけているのです。

元OpenAIムラティ氏、AI調整ツールTinker公開

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立
初製品はAIモデル調整ツールTinker
評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化
強化学習でモデルの新たな能力を開拓
調整済みモデルはダウンロードして自由に利用可

OpenAIの最高技術責任者(CTO)であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ(ファインチューニング)を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習(RL)の活用です。共同創業者ChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

Hugging Face、軽量AIでGUI操作エージェント開発手法を公開

AIプラットフォームのHugging Faceは2025年9月24日、軽量な視覚言語モデル(VLM)をGUI操作エージェントに進化させる新手法「Smol2Operator」を公開しました。この手法は2段階のファインチューニングを通じて、モデルに画面要素の認識能力と複雑なタスクの計画・実行能力を付与します。同社はGUI自動化技術の発展を促進するため、訓練手法やデータセット、モデルを全てオープンソース化し、開発の再現性を高めています。 GUI操作AIの開発では、データセットごとに操作の記述形式が異なり、統一的な学習が困難でした。この課題に対し、同社は多様なデータ形式を標準化された一つのアクション空間に変換するパイプラインを開発。これにより、様々なデータソースを一貫してモデル訓練に活用できるようになりました。企業の開発者は、独自の操作体系に合わせてデータセットを容易に変換できます。 訓練の第1段階では、モデルにGUI上の要素を正確に認識・特定する「グラウンディング能力」を付与します。「ボタンをクリックする」といった低レベルの指示と、画面上の座標を含む実行コードを対にしたデータで学習させ、モデルが画面を「見る」能力の基礎を築きます。これにより、AIは指示された対象を正確に特定できるようになります。 第2段階では、モデルに思考力と計画能力を植え付けます。より高レベルで複雑な指示に対し、次の行動を思考し、複数のステップに分解して実行するデータで訓練します。これにより、モデルは単なる要素認識から、主体的にタスクを遂行するエージェントへと進化し、より複雑な業務自動化への道を開きます。 この2段階訓練により、SmolVLM2-2.2Bという比較的小規模なモデルでも、GUI要素の認識ベンチマークで高い性能を達成しました。同社は、この成果の再現性を担保するため、データ処理ツール、統一されたデータセット、訓練済みモデルを全て公開しており、誰でも追試や応用開発が可能です。 今後の展望として、教師あり学習(SFT)だけでなく、強化学習(RL)や直接選好最適化(DPO)といった手法の活用が挙げられています。これらの手法により、エージェントが静的なデータから学ぶだけでなく、実環境でのインタラクションを通じて学習・改善する、より高度な能力の獲得が期待されます。

AIエージェント性能向上へ、強化学習『環境』に投資が集中

シリコンバレーで、自律的にタスクをこなすAIエージェントの性能向上を目指し、強化学習(RL)で用いるシミュレーション「環境」への投資が急増しています。大手AIラボから新興企業までが開発に注力しており、次世代AI開発の鍵を握る重要技術と見なされています。従来の静的データセットによる学習手法の限界が背景にあります。 では、RL環境とは何でしょうか。これはAIがソフトウェア操作などを模擬した仮想空間で訓練を行うためのものです。例えばブラウザで商品を購入するタスクをシミュレートし、成功すると報酬を与えます。これにより、エージェントは試行錯誤を通じて実践的な能力を高めるのです。 この分野への需要は急拡大しており、大手AIラボはこぞって社内でRL環境を構築しています。The Informationによれば、Anthropicは来年RL環境に10億ドル以上を費やすことを検討しており、業界全体の投資熱の高さを示しています。AI開発競争の新たな主戦場となりつつあります。 この好機を捉え、RL環境に特化した新興企業も登場しています。Mechanize社はAIコーディングエージェント向けの高度な環境を提供。Prime Intellect社はオープンソース開発者向けのハブを立ち上げ、より幅広い開発者が利用できるインフラ構築を目指しています。 データラベリング大手もこの市場シフトに対応しています。Surge社は需要増を受け、RL環境構築専門の組織を設立。評価額100億ドルとされるMercor社も同様に投資を強化し、既存の顧客基盤を活かして市場での地位を固めようとしています。 ただし、この手法の有効性には懐疑的な見方もあります。専門家は、AIが目的を達成せずに報酬だけを得ようとする「報酬ハッキング」のリスクを指摘。AI研究の進化は速く、開発した環境がすぐに陳腐化する懸念もあります。スケーラビリティへの課題も残り、今後の進展が注目されます。

Gemini 2.5がICPCで金獲得。人間不能の難問を30分で解決しAGIへ前進

プログラミング能力の証明

ICPC世界大会で金メダルレベルの成績
全12問中10問を正解し総合2位相当
人間チームが解けなかった難問Cを突破
国際数学オリンピック(IMO)に続く快挙

技術的ブレイクスルー

マルチステップ推論並列思考能力を活用
動的計画法と革新的な探索手法を適用
創薬半導体設計など科学工学分野への応用期待
プログラマーの真の協働パートナーとなる可能性

Google DeepMindのAIモデル「Gemini 2.5 Deep Think」が、2025年国際大学対抗プログラミングコンテスト(ICPC)世界大会で金メダルレベルの成果を達成しました。人間チームが誰も解けなかった複雑な最適化問題を見事に解決し、抽象的な問題解決能力におけるAIの劇的な進化を証明しました。

Geminiは競技ルールに従い、5時間の制限時間で12問中10問を正解しました。これは出場した大学139チームのうち、トップ4にのみ与えられる金メダルレベルに相当し、大学チームと比較すれば総合2位の成績となります。

特に注目すべきは、全ての人間チームが解決できなかった「問題C」を、Geminiが開始からわずか30分以内に効率的に解いた点です。これは、無限に存在する構成の中から、最適な液体分配ネットワークを見つけ出すという、極めて困難な課題でした。

Geminiは、各リザーバーに「プライオリティ値」を設定し、動的計画法を適用するという革新的なアプローチを採用しました。さらにミニマックス定理を利用し、最適解を効率的に導出するためにネストされた三進探索を駆使しました。

この快挙は、プレトレーニング強化学習、そして複数のGeminiエージェントが並列で思考し、コードを実行・検証するマルチステップ推論技術の統合によって実現しました。これにより、Geminiは最も困難なコーディング課題からも学習し進化しています。

ICPCの成果は、AIがプログラマーにとって真の問題解決パートナーになり得ることを示しています。AIと人間の知見を組み合わせることで、ロジスティクスやデバッグ創薬、マイクロチップ設計といった科学・工学分野の複雑な課題解決を加速させることが期待されます。

この先進技術の一部は、すでにGoogle AI Ultraのサブスクリプションを通じて、軽量版のGemini 2.5 Deep Thinkとして提供されています。AIコーディングアシスタントの知能が飛躍的に向上し、開発現場の生産性向上に直結するでしょう。

AIブームが巨大企業を置き去りにする可能性

基盤モデルの価値変化

基盤モデルコモディティ化
事前学習の効果が鈍化
事後学習強化学習へ注目が移行

競争環境の変化

アプリケーション層での競争が激化
オープンソース代替案の台頭
低マージン事業への転落リスク

企業戦略の再構築

ファインチューニングUI設計が重要
基盤モデル企業の優位性は縮小
新たな競争優位性の模索が必要

AIブームが進む中、基盤モデルを開発する巨大企業が置き去りにされる可能性が浮上している。かつては「GPTラッパー」と軽視されたAIスタートアップが、特定タスク向けのモデルカスタマイズやインターフェース設計に注力し始めたからだ。

基盤モデルの価値が変化している背景には、事前学習のスケーリング効果が鈍化している事実がある。AIの進歩は止まっていないが、超大規模モデルの初期利益は減少し、事後学習強化学習が新たな進化の源泉となっている。

競争環境も変化している。スタートアップGPT-5ClaudeGeminiなど基盤モデルを互換性のある部品として扱い、ユーザーが気づかない間にモデルを切り替えることを前提に設計している。

この状況は、OpenAIAnthropicのような基盤モデル企業を低マージンのコモディティ事業のバックエンドサプライヤーに変えるリスクをはらんでいる。ある創業者はこれを「スターバックスにコーヒー豆を売るようなもの」と表現した。

もちろん、基盤モデル企業が完全に脱落するわけではない。ブランド力、インフラ、巨額の資金など持続的な優位性も存在する。しかし、昨年までの「より大きな基盤モデルを構築する」という戦略は魅力を失いつつある。

AI開発の速いペースを考えると、現在の事後学習への注目も半年後には逆転する可能性がある。最も不確実なのは、汎用人工知能への競争が医薬品や材料科学で新たなブレークスルーを生み出す可能性だ。

結局のところ、AIの価値は基盤モデル自体ではなく、それを活用するアプリケーションやユーザー体験に移行しつつある。企業はこの変化に適応し、新たな競争優位性を築く必要に迫られている。