強化学習に関する最新ニュース（22件） | 【AI Times】生成AIやLLMの最新情報・ニュース

MITとIBM、次世代AIの信頼・効率・知識基盤を強化

2025年11月06日検索 AI活用デザイン学生推論強化学習画像コーディング MIT トランスフォーマー

AIの信頼性を高める

LLM回答の不確実性を精密に評価

ナレッジグラフ連携で幻覚を抑制

強化学習でデータ検索を効率化

計算効率と表現力の向上

Transformerの計算コストを削減

線形アテンションで処理を高速化

新方式の位置エンコーディングで表現力を向上

視覚データの高度な活用

合成チャートでVLM学習を促進

画像から描画コードを自動生成・改良

詳細を見る

マサチューセッツ工科大学（MIT）とIBMの研究者らが、AIの信頼性、効率性、知識に基づいた推論能力を向上させる複数の研究プロジェクトを推進しています。博士課程の学生が中心となり、LLMの回答の不確実性を評価する新手法や、計算コストを削減する次世代アーキテクチャなどを開発。これらの成果は、より実用的で価値の高いAIモデルを様々な分野へ展開することを目的としています。

企業のAI活用における最大の課題は、その回答が信頼できるかという点です。これに対し、研究チームはLLMの回答の不確実性を評価する新たな手法を開発しました。これは評価用モデル（プローブ）自体の信頼性を測り、誤った警告を防ぎます。さらに、外部のナレッジグラフと連携させ、AIの「幻覚」を抑制する強化学習フレームワークも構築しています。

大規模モデルの運用には膨大な計算コストが伴います。特にTransformerモデルは、入力データが長くなるほど計算量が爆発的に増加する課題を抱えていました。研究チームは線形アテンションなどの技術を採用することでこの問題を解決。より少ない計算資源で、より長いシーケンスを高速に処理できる次世代アーキテクチャの開発を進めています。

人間のように視覚情報を深く理解するAIも研究対象です。あるチームは、グラフやチャートを読み解き、それを生成するPythonコードを出力する合成データセット「ChartGen」を開発。これにより、財務・科学レポートの自動分析が期待できます。また、デザイン画像を基に質感を再現するプログラムを自己改良しながら生成するシステムも構築しています。

これらの研究は、それぞれがAIの核心的な課題に取り組んでいます。信頼性の確保、効率性の向上、そしてマルチモーダルな推論能力の強化は、AIが実験段階を終え、現実世界のビジネスや科学の現場で不可欠なツールとなるための重要な布石です。個々の技術革新が連携し、より強力で費用対効果の高いAIシステムの実現を加速させるでしょう。

出典：MIT News

人間がAIロボを教育、中国発の製造業革命

2025年11月05日生産性専門家強化学習ロボット米国中国スタートアップ投資教師

AIロボット訓練の新手法

人間による遠隔操作で基礎教育

強化学習で自律的にスキル向上

新規作業の訓練を約10分で完了

頻繁な生産ライン変更にも迅速対応

製造業へのインパクト

複雑な組立作業の自動化を推進

生産性向上と人手不足への対応

中国の製造基盤が競争優位性に

詳細を見る

中国・上海のロボット新興企業AgiBotが、人間による遠隔操作とAIの強化学習を組み合わせ、産業用ロボットに複雑な製造タスクを高速で習得させる新技術を開発しました。この手法により、従来は自動化が困難だった精密作業をロボットが担えるようになり、製造業の生産性向上に大きな影響を与える可能性があります。

同社の「実世界強化学習」と呼ばれるソフトウェアは、まず人間の作業者がロボットを遠隔操作して手本を示します。これを基礎データとして、ロボットは自律的に試行錯誤を重ねてスキルを向上させます。このアプローチにより、新しいタスクの訓練をわずか10分程度で完了できるといいます。

製造現場の生産ラインは、製品の仕様変更などで頻繁に組み替えられます。ロボットが新しい作業を迅速に習得できる能力は、人間と協調しながら変化に柔軟に対応するために不可欠です。これにより、ロボット導入のROI（投資対効果）が大幅に高まることが期待されます。

この高速な学習の裏側には、多くの「人間の教師」が存在します。AgiBotはロボット学習センターを設け、AIモデルにスキルを教え込むために人間がロボットを遠隔操作しています。高品質なロボット訓練用データの需要は世界的に高まっており、新たな雇用を生む可能性も指摘されています。

カーネギーメロン大学の専門家もAgiBotの技術を最先端と評価しています。中国は世界最大の産業用ロボット市場であり、巨大な製造基盤とサプライチェーンが、同国スタートアップの強力な競争優位性となっています。米国でも同様の技術開発が進んでおり、競争は激化しています。

AIを活用したロボットの学習ループは、米国などが製造業の国内回帰（リショアリング）を目指す上で習得が不可欠な技術とみられています。AgiBotの躍進は、AIとロボット工学を核とした次世代の製造業の主導権争いが、すでに始まっていることを示唆しているのかもしれません。

出典：WIRED

AI評価を阻む「組織の壁」

ステークホルダー間の品質基準の不一致

少数専門家の暗黙知の形式知化

評価システムの大規模な展開

信頼できるAI Judge構築法

曖昧な基準を具体的Judgeに分解

20-30の事例で高速にモデル構築

評価者間信頼性スコアで認識を統一

Judgeを継続的に進化させる資産へ

詳細を見る

Databricks社は、AIがAIを評価する「AI Judge」構築における最大の障壁が、技術ではなく組織的な課題であるとの調査結果を発表しました。多くの企業でAI導入を妨げているのは、品質基準の合意形成や専門知識の形式知化といった「人の問題」です。同社は解決策として、実践的なフレームワーク「Judge Builder」を提供し、企業のAI活用を新たな段階へと導いています。

AIモデルの性能自体は、もはや企業導入のボトルネックではありません。DatabricksのAIチーフサイエンティストは「モデルに何をさせたいか、そしてそれができたかをどう知るか」が真の課題だと指摘します。特にステークホルダー間で品質の定義が異なることは、技術では解決できない根深い「人の問題」なのです。

AIでAIを評価する際には、「評価AIの品質は誰が保証するのか」という「ウロボロスの問題」がつきまといます。この循環的な課題に対し、Databricksは人間の専門家による評価との「距離」を最小化するアプローチを提唱。これによりAI Judgeは人間の専門家の代理として信頼性を獲得し、大規模な評価を可能にします。

驚くべきことに、組織内の専門家同士でさえ、品質に対する意見は一致しないことが多いです。そこで有効なのが、少人数で評価例に注釈を付け、評価者間信頼性スコアを確認する手法です。これにより認識のズレを早期に発見・修正でき、ノイズの少ない高品質な学習データを確保して、Judgeの性能を直接的に向上させます。

優れたJudgeを構築する秘訣は、曖昧な基準を具体的な評価項目に分解することです。例えば「良い回答」ではなく、「事実性」「簡潔さ」を個別に評価するJudgeを作成します。また、必要なデータは意見が割れる20〜30のエッジケースで十分であり、わずか数時間で高精度なJudgeを構築することが可能です。

Judgeの導入は、AI投資の拡大に直結します。ある顧客は導入後にAIへの支出を数億円規模に増やし、以前は躊躇していた強化学習にも着手しました。AI Judgeは一度作って終わりではなく、ビジネスと共に進化する「資産」です。まずは影響の大きい領域から着手し、本番データで定期的に見直すことが成功への鍵となります。

出典：VentureBeat

AI開発環境Cursor、4倍高速な自社モデル投入

2025年10月31日生産性ワークフローエンジニア専門家強化学習コーディングデバッグ開発ツールエージェント

独自モデル「Composer」

競合比4倍の高速性を主張

強化学習とMoEアーキテクチャ採用

知能と速度のバランスを両立

IDEもメジャー更新

新バージョン「Cursor 2.0」を公開

複数AIエージェントの並列実行

VS Codeベースで強力なAI統合

詳細を見る

AI統合開発環境（IDE）を開発するCursor社は2025年10月31日、「Cursor 2.0」を発表しました。今回の目玉は、自社開発の高速コーディングモデル「Composer」と、複数のAIエージェントを並行してタスク処理できる新インターフェースです。開発者の生産性を飛躍的に高めることを目指します。

新モデル「Composer」の最大の特徴は、その圧倒的な速度です。同社は「同等の知能を持つモデルと比較して4倍高速」と主張。コーディング中の思考を妨げない、スムーズなAIとの対話を実現し、エンジニアの生産性向上に直結するとしています。

Composerの高性能は、強化学習と混合専門家（MoE）アーキテクチャが支えています。複数の専門家モデルを組み合わせることで、複雑なタスクに対し効率的かつ高品質なコード生成を可能にします。これは最新のAI開発トレンドを反映した設計と言えるでしょう。

IDEの新機能も見逃せません。マルチエージェントインターフェースの搭載により、複数のAIエージェントを同時に実行し、それぞれに異なるタスクを割り当てることが可能になりました。コード生成とデバッグを並行して進めるなど、開発ワークフロー全体の効率化が期待できます。

これまで他社製AIモデルに依存してきたCursorですが、今回の自社モデル投入は大きな転換点です。他社依存からの脱却は、独自の開発思想に基づく最適化を進める強い意志の表れであり、AI開発ツール市場における競争激化を予感させます。

出典：Ars Technica

Cursor、4倍速の自社製AI「Composer」を投入

2025年10月29日 GitHub Copilot GitHub Copilot 生産性検索ワークフローエンジニア専門家強化学習コーディングエージェントベンチマーク

自社製LLMの驚異的な性能

同等モデル比で4倍の高速性

フロンティア級の知能を維持

生成速度は毎秒250トークン

30秒未満での高速な対話

強化学習で「現場」を再現

静的データでなく実タスクで訓練

本番同様のツール群を使用

テストやエラー修正も自律実行

Cursor 2.0で複数エージェント協調

詳細を見る

AIコーディングツール「Cursor」を開発するAnysphere社は、初の自社製大規模言語モデル（LLM）「Composer」を発表しました。Cursor 2.0プラットフォームの核となるこのモデルは、同等レベルの知能を持つ他社モデルと比較して4倍の速度を誇り、自律型AIエージェントによる開発ワークフローに最適化されています。開発者の生産性向上を強力に後押しする存在となりそうです。

Composerの最大の特徴はその圧倒的な処理速度です。毎秒250トークンという高速なコード生成を実現し、ほとんどの対話を30秒未満で完了させます。社内ベンチマークでは、最先端の知能を維持しながら、テスト対象のモデルクラスの中で最高の生成速度を記録。速度と賢さの両立が、開発者の思考を妨げないスムーズな体験を提供します。

この高性能を支えるのが、強化学習（RL）と混合専門家（MoE）アーキテクチャです。従来のLLMが静的なコードデータセットから学習するのに対し、Composerは実際の開発環境内で訓練されました。ファイル編集や検索、ターミナル操作といった本番同様のタスクを繰り返し解くことで、より実践的な能力を磨き上げています。

訓練プロセスを通じて、Composerは単なるコード生成にとどまらない創発的な振る舞いを獲得しました。例えば、自律的にユニットテストを実行して品質を確認したり、リンター（静的解析ツール）が検出したエラーを修正したりします。これは、AIが開発プロジェクトの文脈を深く理解している証左と言えるでしょう。

Composerは、刷新された開発環境「Cursor 2.0」と完全に統合されています。新環境では最大8体のAIエージェントが並行して作業するマルチエージェント開発が可能になり、Composerがその中核を担います。開発者は複数のAIによる提案を比較検討し、最適なコードを選択できるようになります。

この「エージェント駆動型」のアプローチは、GitHub Copilotのような受動的なコード補完ツールとは一線を画します。Composerは開発者の指示に対し、自ら計画を立て、コーディング、テスト、レビューまでを一気通貫で行う能動的なパートナーです。AIとの協業スタイルに新たな標準を提示するものと言えます。

Composerの登場は、AIが単なる補助ツールから、開発チームの一員として自律的に貢献する未来を予感させます。その圧倒的な速度と実践的な能力は、企業のソフトウェア開発における生産性、品質、そして収益性を新たな次元へと引き上げる強力な武器となる可能性を秘めています。

出典：VentureBeat

AI訓練のMercor、評価額5倍の100億ドルに

2025年10月27日 OpenAI Mercor ネットワーク専門家投資家強化学習インフラ投資資金調達評価額 ARR

驚異的な企業価値

評価額が100億ドルに到達

前回の評価額から5倍に急増

シリーズCで3.5億ドルを調達

独自のビジネスモデル

AI訓練向けドメイン専門家を提供

強化学習のインフラを強化

3万人超の専門家ネットワーク

今後の成長戦略

人材ネットワークのさらなる拡大

マッチングシステムの高度化

詳細を見る

AIモデルの訓練に専門家を提供するMercor社が、シリーズCラウンドで3.5億ドルの資金調達を実施し、企業評価額が100億ドルに達したことを発表しました。この評価額は2月の前回ラウンドからわずか8ヶ月で5倍に急増しており、AI業界の旺盛な需要を象徴しています。今回のラウンドも、既存投資家のFelicis Venturesが主導しました。

同社の強みは、科学者や医師、弁護士といった高度な専門知識を持つ人材をAI開発企業に繋ぐ独自のビジネスモデルにあります。これらの専門家が、人間のフィードバックを反映させる強化学習（RLHF）などを担うことで、AIモデルの精度と信頼性を飛躍的に向上させています。

この急成長の背景には、OpenAIなどの大手AIラボが、データラベリングで競合するScale AIとの関係を縮小したことがあります。Mercor社はこの市場機会を捉え、代替サービスとして急速にシェアを拡大。年間経常収益（ARR）は5億ドル達成が目前に迫る勢いです。

現在、Mercor社のプラットフォームには3万人を超える専門家が登録しており、その平均時給は85ドル以上にのぼります。同社は契約する専門家に対し、1日あたり総額150万ドル以上を支払っていると公表しており、その事業規模の大きさがうかがえます。

今回調達した資金は、主に3つの分野に投じられます。①人材ネットワークのさらなる拡大、②クライアントと専門家を繋ぐマッチングシステムの改善、そして③社内プロセスを自動化する新製品の開発です。AI開発の高度化に伴い、同社の役割はますます重要になるでしょう。

出典：TechCrunch

アント、1兆パラメータAI公開強化学習の壁を突破

2025年10月24日 Google OpenAI DeepSeek Gemini Qwen 数学 GPT-5 推論強化学習オープンウェイト推論モデル GPU 米国中国米中エージェントベンチマークオープンソースモデル

1兆パラメータモデルRing-1T

中国アントグループが開発

1兆パラメータのオープンソース推論モデル

数学・論理・コード生成に特化

ベンチマークでGPT-5に次ぐ性能

独自技術で学習効率化

強化学習のボトルネックを解決

学習を安定化させる新手法「IcePop」

GPU効率を高める「C3PO++」を開発

激化する米中AI覇権争いの象徴

詳細を見る

中国のアリババ系列企業アントグループが、1兆個のパラメータを持つオープンソースの推論AIモデル「Ring-1T」の技術詳細を公開しました。このモデルは、独自開発した最適化手法により、大規模モデルの学習における強化学習のボトルネックを解決した点が特徴です。OpenAIの「GPT-5」やGoogleの「Gemini」など米国勢に対抗し、激化する米中間のAI覇権争いで存在感を示す狙いがあります。

「Ring-1T」は、数学、論理問題、コード生成、科学的問題解決に特化して設計されています。各種ベンチマークテストでは、多くの項目でOpenAIのGPT-5に次ぐ高いスコアを記録しました。特に、同社がテストしたオープンウェイトモデルの中では最高の性能を示し、中国企業の技術力の高さを証明しています。

この成果の背景には、超大規模モデルの学習を効率化する三つの独自技術があります。研究チームは、学習プロセスを安定させる「IcePop」、GPUの遊休時間をなくしリソースを最大限活用する「C3PO++」、非同期処理を可能にするアーキテクチャ「ASystem」を開発。これらが、1兆パラメータ規模のモデル学習を現実のものとしました。

特に注目すべきは、強化学習における課題へのアプローチです。従来、大規模モデルの強化学習は計算コストと不安定性が大きな障壁でした。「IcePop」は、学習を妨げるノイズの多い情報を抑制し、安定した性能向上を実現します。この技術革新は、今後のAIエージェント開発など応用分野の発展にも大きく貢献する可能性があります。

今回の発表は、DeepSeekやアリババ本体の「Qwen」シリーズに続く、中国発の高性能モデルの登場を意味します。米国の巨大テック企業を猛追する中国の勢いはとどまるところを知りません。「Ring-1T」のようなオープンソースモデルの公開は、世界中の開発競争をさらに加速させることになりそうです。

出典：VentureBeat

GoogleのAI、核融合炉を制御 CFSと提携

2025年10月16日 Google DeepMind 強化学習ハードウェアエネルギー電力需要スタートアップ提携

AIで核融合開発を加速

DeepMindとCFSが提携

AIでプラズマを最適制御

高速シミュレーターを活用

クリーンエネルギー実用化へ

次世代核融合炉「SPARC」

CFSが開発中の実験炉

史上初の純エネルギー生成目標

高温超電導磁石が鍵

AIの具体的な役割

数百万回の仮想実験を実施

エネルギー効率の最大化

複雑なリアルタイム制御の実現

詳細を見る

Google傘下のAI企業DeepMindは2025年10月16日、核融合スタートアップのCommonwealth Fusion Systems（CFS）との研究提携を発表しました。DeepMindのAI技術と高速シミュレーター「TORAX」を用いて、CFSが建設中の次世代核融合炉「SPARC」の運転を最適化します。クリーンで無限のエネルギー源とされる核融合の実用化を、AIの力で加速させることが狙いです。

提携の核心は、AIによるプラズマ制御の高度化にあります。核融合炉では1億度を超えるプラズマを強力な磁場で閉じ込める必要がありますが、その挙動は極めて複雑で予測困難です。DeepMindは過去に強化学習を用いてプラズマ形状の安定化に成功しており、その知見をCFSの先進的なハードウェアに応用し、より高度な制御を目指します。

具体的な協力分野の一つが、高速シミュレーター「TORAX」の活用です。これにより、CFSは実験炉「SPARC」が実際に稼働する前に、数百万通りもの仮想実験を実施できます。最適な運転計画を事前に探ることで、貴重な実験時間とリソースを節約し、開発全体のスピードアップを図ることが可能になります。

さらにAIは、エネルギー生成を最大化するための「最適解」を膨大な選択肢から見つけ出します。磁場コイルの電流や燃料噴射など、無数の変数を調整する複雑な作業は人手では限界があります。将来的には、AIが複数の制約を考慮しながらリアルタイムで炉を自律制御する「AIパイロット」の開発も視野に入れています。

提携先のCFSは、マサチューセッツ工科大学発の有力スタートアップです。現在建設中の「SPARC」は、高温超電導磁石を用いて小型化と高効率化を実現し、投入した以上のエネルギーを生み出す「ネット・エネルギー」を史上初めて達成することが期待される、世界で最も注目されるプロジェクトの一つです。

GoogleはCFSへの出資に加え、将来の電力購入契約も締結済みです。AIの普及で電力需要が急増する中、クリーンで安定したエネルギー源の確保は巨大テック企業にとって喫緊の経営課題となっています。今回の提携は、その解決策として核融合に賭けるGoogleの強い意志の表れと言えるでしょう。

出典：DeepMind公式 | TechCrunch

保険業務をAIで刷新、Liberateが75億円調達

2025年10月15日生産性アシスタント投資家推論強化学習音声スタートアップ投資資金調達ベンチャーキャピタル評価額エージェント

AIエージェントの提供価値

売上15%増、コスト23%削減を実現

請求対応時間を30時間から30秒に短縮

24時間365日の販売・顧客対応

既存システムと連携し業務を自動化

大型資金調達の概要

シリーズBで5000万ドルを調達

企業評価額は3億ドル（約450億円）

AIの推論能力向上と事業拡大に投資

Battery Venturesがラウンドを主導

詳細を見る

AIスタートアップのLiberate社が、シリーズBラウンドで5000万ドル（約75億円）を調達したと発表しました。企業評価額は3億ドル（約450億円）に達します。同社は音声AIと推論ベースのAIエージェントを組み合わせ、保険の販売から請求処理までのバックオフィス業務を自動化するシステムを開発。運営コストの増大や旧式システムに悩む保険業界の課題解決を目指します。

Liberateの技術の核心は、エンドツーエンドで業務を完遂するAIエージェントです。顧客対応の最前線では音声AIアシスタント「Nicole」が電話応対し、その裏でAIエージェント群が既存の保険システムと連携。見積もり作成、契約更新、保険金請求処理といった定型業務を人の介在なしに実行します。

導入効果は既に数字で示されています。顧客企業は平均で売上が15%増加し、運用コストを23%削減することに成功。ある事例では、ハリケーン関連の保険金請求対応にかかる時間が従来の30時間からわずか30秒へと劇的に短縮されました。人間の担当者が不在の時間帯でも販売機会を逃しません。

高い性能と信頼性を両立させる仕組みも特徴です。AIは規制の厳しい保険業界の対話に特化した強化学習で訓練されています。さらに「Supervisor」と呼ばれる独自ツールがAIと顧客の全やり取りを監視。AIの応答が不適切と判断された場合は、即座に人間の担当者にエスカレーションする安全装置も備えています。

今回の資金調達は、著名VCのBattery Venturesが主導しました。投資家は、Liberateの技術を「単に対話するだけでなく、システムと連携してタスクを最後までやり遂げる能力」と高く評価。多くの保険会社が本格的なDXへと舵を切る中、同社の存在感はますます高まっています。

Liberateは調達した資金を、AIの推論能力のさらなる向上と、グローバルな事業展開の加速に充てる計画です。創業3年の急成長企業が、伝統的な保険業界の生産性と収益性をいかに変革していくか、市場の注目が集まります。

出典：TechCrunch

MIT技術でAIが自律的に進化へ

2025年10月13日 GPT-4 強化学習ファインチューニングリスク MIT エージェント教師

SEAL技術の概要

LLMが自律的に自己改善

合成データを生成し学習

具体的な性能

知識タスクで大幅な性能向上

GPT-4.1が生成したデータを上回る

フューショット学習でも成功

今後の課題と展望

災害的忘却のリスク

計算コストが課題

モデルの大型化で適応能力向上

詳細を見る

マサチューセッツ工科大学（MIT）の研究チームが、大規模言語モデル（LLM）が自らを改善する技術「SEAL」の改良版を公開し、AIの自律的な進化が現実味を帯びてきました。この技術は、LLMが自ら合成データを生成してファインチューニングを行うことで、外部からの継続的なデータ供給や人間の介入なしに性能を向上させることを可能にします。

SEALの核心は、モデルが「自己編集」と呼ばれる自然言語の指示を生成し、それに基づいて自らの重みを更新する点にあります。これは、人間が学習内容を再構成して理解を深めるプロセスに似ており、従来のモデルがデータをそのまま受け身で学習するのとは一線を画します。

性能評価では、SEALは目覚ましい成果を上げています。新たな事実知識を取り込むタスクでは、正答率を33.5%から47.0%へと向上させ、これはGPT-4.1が生成したデータを使った場合を上回りました。また、少数の例から学ぶフューショット学習でも、成功率を20%から72.5%に引き上げています。

技術的には、SEALは「内側ループ」で自己編集による教師ありファインチューニングを行い、「外側ループ」で強化学習によってより有益な編集を生成する方策を学ぶ、という二重ループ構造を採用しています。計算効率を高めるため、効率的なファインチューニング手法であるLoRAが活用されています。

しかし、課題も残されています。新たな情報を学習する際に、以前に学習した能力が低下する「災害的忘却」のリスクや、一つの編集を評価するのに30～45秒かかる計算コストの高さが挙げられます。研究チームは、強化学習がこの忘却を緩和する可能性があると指摘しています。

それでも、この技術がもたらすインパクトは計り知れません。AIコミュニティからは「凍結された重みの時代の終わり」との声も上がっており、モデルが環境の変化に合わせて進化し続ける、より適応的でエージェント的なAIシステムへの道を開くものと期待されています。

出典：VentureBeat

NVIDIA、LLMの思考力を事前学習で鍛える新手法

2025年10月10日 NVIDIA ワークフロー数学推論強化学習ファインチューニング事前学習ベンチマーク CoT

思考を促す新訓練手法

強化学習を事前学習に統合

モデルが自ら思考を生成

思考の有用性に応じて報酬を付与

外部検証者が不要な自己完結型

推論能力の大幅な向上

数学・科学分野で高スコアを記録

ファインチューニング効果が向上

少ないデータで高い性能を発揮

企業の高信頼性ワークフローに応用

詳細を見る

NVIDIAの研究者チームが、大規模言語モデル（LLM）の訓練手法を根本から変える可能性のある新技術「強化学習事前学習（RLP）」を発表しました。この手法は、従来は訓練の最終段階で行われていた強化学習を、大量のテキストデータを読み込む事前学習の初期段階に統合するものです。これにより、モデルは自ら「思考」する能力を早期に獲得し、複雑な推論タスクにおける性能が飛躍的に向上することが示されました。

従来のLLM開発では、まず「次の単語を予測する」という単純なタスクを通じて、膨大なテキストデータから言語の基本構造を学習させます。その後に、人間によるフィードバックや特定のデータセットを用いたファインチューニング（微調整）で、思考の連鎖（CoT）のような高度な推論能力を教え込むのが一般的でした。しかし、この逐次的なプロセスでは、モデルが深い思考力を初期から身につけることが難しいという課題がありました。

新手法RLPは、このプロセスを刷新します。モデルは次の単語を予測する前に、まず内部で「思考」や推論の連鎖を生成します。そして、その思考が予測精度をどれだけ向上させたかに基づいて、自律的に報酬を受け取ります。思考が予測に役立った場合にのみ正の報酬が与えられるため、モデルは人間によるラベル付けや外部の検証者を必要とせず、有用な思考パターンを効率的に学習していきます。

実験では、RLPを用いて訓練されたモデルが、数学や科学といった高度な推論を要するベンチマークで、従来手法で訓練されたモデルを一貫して上回る性能を示しました。特に注目すべきは、ファインチューニング後もこの性能向上が失われることなく、むしろ相乗効果を生み出す点です。これは、後の学習で以前の知識を忘れてしまう「破滅的忘却」という課題を克服し、より堅牢な基礎能力を構築できることを意味します。

この技術は、企業のワークフローにも大きな影響を与える可能性があります。例えば、金融分析や法務文書の要約など、複数ステップの論理的な思考が求められる業務において、AIの信頼性を高めることが期待されます。NVIDIAの研究担当ヴァイスプレジデントであるブライアン・カタンザロ氏は、「RLPは既存のファインチューニングを置き換えるのではなく、その効果を増幅させるものだ」と述べ、より強力なモデルを構築するための新たな基盤になるとの考えを示しています。

RLPは、単なる訓練コストの削減技術にとどまりません。LLMの学習プロセス自体を、受動的な単語予測から、より能動的で好奇心旺盛な「思考」の探求へとシフトさせるものです。このアプローチは、AIが世界の情報をどのように見て、それについてどう考えるかを教える新しい道筋を示唆しており、将来のAI開発における新たなスケーリングの軸となる可能性を秘めているのです。

出典：VentureBeat

高品質AIデータで新星、Datacurveが22億円調達

2025年10月09日 OpenAI Anthropic Meta DeepMind Vercel エンジニア専門家創業者投資家強化学習事後学習インフラスタートアップ医療投資資金調達ベンチャーキャピタル

独自の人材獲得戦略

専門家向け報奨金制度

データ収集を消費者製品と定義

金銭より優れたUXを重視

ポストScale AI時代の潮流

巨人Scale AIのCEO退任が好機

複雑な強化学習データ需要増

ソフトウェア開発から多分野へ展開

注目の資金調達

シリーズAで1500万ドルを確保

著名VCやAI企業の従業員も出資

詳細を見る

AI向け高品質データを提供するスタートアップ、Datacurveが10月9日、シリーズAで1500万ドル（約22.5億円）の資金調達を発表しました。Yコンビネータ出身の同社は、業界最大手Scale AIの牙城を崩すべく、熟練エンジニアを惹きつける独自の報奨金制度と優れたユーザー体験を武器に、複雑化するAIの学習データ需要に応えます。

同社の強みは、専門家を惹きつける「バウンティハンター」制度です。高度なスキルを持つソフトウェアエンジニアに報奨金を支払い、質の高いデータセットを収集します。共同創業者のセレナ・ゲ氏は「これは単なるデータラベリング作業ではない。消費者向け製品として捉え、最高の体験を提供することに注力している」と語ります。

この動きの背景には、AIデータ市場の大きな変化があります。最大手Scale AIの創業者アレクサンダー・ワン氏がMetaへ移籍したことで、市場に好機が生まれたと投資家は見ています。また、AIモデルの高度化に伴い、単純なデータセットではなく、複雑な強化学習（RL）環境の構築に必要な、質・量ともに高いデータへの需要が急増しています。

今回の資金調達は、Chemistryが主導し、DeepMind、Vercel、Anthropic、OpenAIといった名だたる企業の従業員も参加しました。シードラウンドでは元Coinbase CTOのバラジ・スリニヴァサン氏も出資しており、技術と市場の両面から高い評価を得ていることが伺えます。

Datacurveはまずソフトウェアエンジニアリング分野で地位を確立し、将来的にはそのモデルを金融、マーケティング、医療などの専門分野へも展開する計画です。専門家が自らのドメイン知識を活かせるインフラを構築することで、ポストトレーニングデータ収集の新たな標準を築くことを目指しています。

出典：TechCrunch

分散型強化学習でAIを民主化：Prime Intellectが挑むオープンLLM開発

2025年10月08日エンジニア推論強化学習事前学習ハードウェア米国中国スタートアップエージェント

AI開発のボトルネック解消

巨大企業に依存しないオープンLLM開発

AI能力拡張のボトルネック解消

強化学習（RL）を分散化しモデルを改善

INTELLECT-3など競争力あるモデル開発

分散型アプローチの仕組み

学習環境の構築をコミュニティに開放

特定のハードウェアに非依存のトレーニング

専門知識が不要なAI開発の民主化

特定タスク向けエージェント創出を加速

詳細を見る

スタートアップのPrime Intellectは、分散型強化学習（DRL）を活用し、競争力のあるオープンなフロンティア大規模言語モデル（LLM）「INTELLECT-3」を開発中です。これは、巨大テック企業に依存せず、世界中の多様なハードウェアを用いてAIモデルを構築し、AI開発を民主化することを目的としています。現在のAI界の二極化構造を変える可能性を秘めた動きとして注目されています。

今日、AIモデルの改善は、単純なデータや計算資源の増強だけでは難しくなっています。特に、プレトレーニング後の強化学習（RL）のプロセスが、モデルの能力拡張における最大のボトルネックです。このRLは通常、高度な専門知識と大量の計算資源が必要なため、これまで大手AI企業によってクローズドに行われてきました。

Prime Intellectは、この課題を打破するため、誰もが特定のタスクに特化した強化学習環境を作成できるフレームワークを提供しています。コミュニティと自社チームが作成した最良の環境を組み合わせることで、INTELLECT-3のチューニングを進めています。これにより、開発者は手軽にRLを実行し、モデルの専門性を高めることが可能になります。

同社は以前にも分散型手法の有効性を示しています。2024年後半のINTELLECT-1、そして推論能力を向上させたINTELLECT-2をリリースし、分散型トレーニングの実現性を証明しました。Teslaの元AIチーム責任者であるアンドレイ・カーパシー氏も、Prime Intellectの強化学習環境の取り組みを「素晴らしいアイデア」として評価しています。

Prime Intellectの試みは、オープンソースAI市場における米国の存在感を高めることを目指しています。現在、オープンなフロンティアモデルは中国勢が優勢ですが、同社の技術が普及すれば、スタートアップや開発者が自ら高度なAIを構築・修正できるようになります。これにより、多種多様なタスクに特化した新たなAIエージェント製品の創出が期待されます。

出典：WIRED

AIでロボット訓練環境を革新：物理法則守る多様な仮想世界を超速生成

2025年10月08日生産性アシスタントシミュレーション強化学習インフラロボット MIT プロンプト

訓練環境の課題克服

実機訓練の時間とコストを大幅削減

従来のシミュレーションの物理的な不正確さを解消

コア技術とリアリティ担保

生成AI（拡散モデル）を活用した3D仮想環境の創出

MCTS適用により複雑で多様な配置を自動設計

フォークが皿を貫通しないなど物理的正確性を保証

高精度なシーン生成

テキスト指示で目的通りのシーンを高精度に生成

将来は開閉可能な物体や新規オブジェクトにも対応

詳細を見る

マサチューセッツ工科大学（MIT）とトヨタ研究所は、ロボットの訓練を革新する新しい生成AI技術「Steerable Scene Generation（ステアラブル・シーン生成）」を開発しました。このシステムは、キッチンやレストランなど、多様な実世界の仮想環境を、物理法則にのっとりながら、手作業の数倍の効率で自動生成します。これにより、時間とコストがかかる実機訓練や、不正確さが課題だった従来のシミュレーションの壁を破り、ロボット開発の生産性を飛躍的に高めることが期待されています。

ロボットが現実世界で有用なアシスタントとなるためには、膨大で多様なデモンストレーションデータが必要です。しかし、実際のロボットでデータ収集するのは非効率的です。従来のシミュレーション環境作成は、手作業でデジタル環境を設計するか、非現実的な物理現象（オブジェクトの貫通など）を含むAI生成に頼るしかありませんでした。「ステアラブル・シーン生成」は、この訓練データの多様性とリアリティの欠如という長年のボトルネックを解消することを目指しています。

本技術の中核は、生成AIの拡散モデルを「ステアリング」（誘導）することです。特に注目すべきは、ゲームAIとして有名な「モンテカルロ木探索（MCTS）」を3Dシーン生成タスクに初めて適用した点です。MCTSは、シーン生成を連続的な意思決定プロセスと捉え、部分的なシーンを段階的に改良します。これにより、モデルが学習したデータセットに含まれるよりもはるかに複雑で、多様性の高いシーンを自動で作り出します。

仮想環境のリアルさは、ロボットが実世界で動作するために不可欠です。このシステムは、物理的な正確性を徹底的に保証します。例えば、テーブル上のフォークが皿を突き抜ける「クリッピング」といった3Dグラフィックス特有の不具合を防ぎます。訓練では、4400万件以上の3Dルームデータを利用しており、これが実世界に近いインタラクションをシミュレートする基盤となっています。

本システムは、強化学習を用いた試行錯誤や、ユーザーが直接テキストプロンプトを入力することで、柔軟に利用できます。「キッチンにリンゴ4個とボウルを」といった具体的指示に対しても、パントリーの棚配置で98%、散らかった朝食テーブルで86%という高い精度でシーンを構築することに成功しています。これは既存の類似手法に比べ、10%以上の改善であり、ロボット工学者が真に利用可能なデータを提供します。

研究者らは今後、この技術をさらに進化させ、既存のライブラリに頼らず、AIが新しいオブジェクト自体を生み出すことや、キャビネットや瓶といった「開閉可能な関節オブジェクト」を組み込むことを計画しています。このインフラが普及すれば、多様でリアルな訓練データが大量に供給され、器用なロボットの実用化に向けた大きな一歩となるでしょう。ロボット開発の効率化と市場投入の加速に直結する重要な進展です。

出典：MIT News

Anthropic、元Stripe CTOを迎え、エンタープライズ向け基盤強化へ

2025年10月07日 Anthropic Stripe Claude AWS 生産性エンジニア創業者推論強化学習インフラクラウドセキュリティ人事

新CTOが担う役割

グローバルなエンタープライズ需要に対応

製品、インフラ、推論を全て統括

Claudeの信頼性・スケーラビリティ確保

世界水準のインフラ構築への注力

パティル氏のキャリア資産

直近はStripeの最高技術責任者（CTO）

Stripeで数兆ドル規模の取引を支援

AWSやMSなど大手クラウドでの経験

20年超のミッションクリティカルな構築実績

詳細を見る

AI大手Anthropicは、元Stripeの最高技術責任者（CTO）であるラフル・パティル（Rahul Patil）氏を新たなCTOとして迎えました。これは、急速に増大するエンタープライズ顧客の需要に応えるため、Claudeの大規模かつ信頼性の高いインフラ基盤を構築することを最優先する、戦略的な人事です。

パティル氏は、製品、コンピューティング、インフラストラクチャ、推論、データサイエンス、セキュリティを含むエンジニアリング組織全体を監督します。彼のミッションは、Anthropicが持つ研究の優位性を活かしつつ、Claudeをグローバル企業が依存できる堅牢なプラットフォームへとスケールさせることです。

新CTOは、20年以上にわたり業界をリードするインフラを構築してきた実績があります。特にStripeでは、年間数兆ドルを処理する技術組織を指導しました。この経験は、高い可用性とセキュリティが求められる金融技術の領域で、ミッションクリティカルなシステムを構築する専門知識を示しています。

共同創業者兼社長のダニエラ・アモデイ氏は、Anthropicがすでに30万を超えるビジネス顧客にサービスを提供している点を強調しました。パティル氏の採用は、Claudeを「企業向けをリードするインテリジェンスプラットフォーム」に位置づけるという、同社の強いコミットメントを裏付けるものです。

なお、共同創業者であり前CTOのサム・マキャンディッシュ氏は、Chief Architect（チーフアーキテクト）に就任しました。彼は、大規模モデルトレーニング、研究生産性、RL（強化学習）インフラストラクチャといった根幹の研究開発分野に専念し、技術的な進化を引き続き主導します。

出典：Anthropic公式

AI性能向上を分ける「強化学習の格差」：テスト容易性が鍵

2025年10月05日 OpenAI Sora チャットボット動画生成数学専門家強化学習セキュリティ動画コーディング投資

AI進化の二極化

AIの進歩は均等ではない

コーディング系スキルは急激に向上

メール作成など主観的スキルは停滞

強化学習（RL）が最大の推進力

性能向上を左右する要素

計測可能性が進化速度を決定

RLは明確な合否判定で機能

自動採点可能なタスクに集中投資

テスト可能なプロセスは製品化に成功

詳細を見る

現在、AIの性能進化に大きな偏りが生じており、専門家の間で「強化学習の格差（Reinforcement Gap）」として注目されています。これは、AI開発の主要な推進力である強化学習（RL）が、自動で計測・評価できるスキルを優先的に急伸させているためです。コーディング支援ツールのようにテスト容易性の高い分野は劇的に進化する一方、文章作成など主観的なタスクは進捗が停滞しています。

この格差の背景には、RLの性質があります。RLが最も効果を発揮するのは、明確な「合格・不合格」の指標が存在する場合です。この仕組みにより、AIは人間の介入を必要とせず、数十億回規模の自動テストを繰り返すことができます。結果として、バグ修正や競争数学などのテストが容易なスキルは急速に性能を向上させています。

特にソフトウェア開発は、RLにとって理想的な対象です。元々、コードのユニットテストやセキュリティテストなど、システム化された検証プロセスが確立されています。この既存のテスト機構を流用することで、AIが生成したコードの検証と大規模なRL学習が効率的に進められています。

対照的に、良質なメールや洗練されたチャットボットの応答は、本質的に主観的であり、大規模な計測が困難です。ただし、全てのタスクが「テスト容易」か「困難」に二分されるわけではありません。例えば、財務報告書のような分野でも、適切な資本投下により新たなテストキット構築は技術的に可能と見られています。

この強化学習の格差は、今後のAI製品化の是非を決定づける要因となります。予測が難しいのは、テスト容易性が後から判明するケースです。OpenAIのSora 2モデルによる動画生成の進化は、物理法則の遵守など、潜在的なテスト基準を確立した結果であり、驚異的な進歩を遂げました。

RLがAI開発の中心であり続ける限り、この格差は拡大し、経済全体に重大な影響を与えます。もしあるプロセスがRLの「正しい側」に分類されれば、その分野での自動化は成功する可能性が高いため、今その仕事に従事している人々はキャリアの再考を迫られるかもしれません。

出典：TechCrunch

アルトマン氏、GPT-5批判に反論「AGIへの道は順調」

2025年10月03日 OpenAI GPT-5 GPT-4 専門家強化学習スケーリング則データセンター AGI コーディングサム・アルトマン

「GPT-5」への逆風

期待外れとの厳しい評価

AIブーム終焉論の台頭

スケーリング則の限界指摘

OpenAIの反論

専門分野での画期的な進歩

進歩の本質は強化学習

GPT-6以降で更なる飛躍を約束

AGIは目的地でなくプロセス

詳細を見る

OpenAIのサム・アルトマンCEOが、8月に発表された「GPT-5」への厳しい批判に反論しました。同氏はWIRED誌のインタビューで、初期の評判は芳しくなかったと認めつつも、GPT-5はAGI（汎用人工知知能）への探求において重要な一歩であり、その進歩は計画通りであると強調。AIブームの終焉を囁く声に真っ向から異を唱えました。

GPT-5の発表は、多くの専門家や利用者から「期待外れ」と評されました。デモでの不具合や、前モデルからの飛躍が感じられないという声が相次ぎ、「AIブームは終わった」「スケーリング則は限界に達した」との懐疑論が噴出する事態となったのです。

これに対しアルトマン氏は、GPT-5の真価は科学やコーディングといった専門分野で発揮されると主張します。「物理学の重要な問題を解いた」「生物学者の発見を助けた」など、AIが科学的発見を加速させ始めた初のモデルだとし、その重要性を訴えています。

では、なぜ評価が分かれたのでしょうか。OpenAI側は、GPT-4から5への進化の間に頻繁なアップデートがあったため、ジャンプが小さく見えたと分析。また、今回の進歩の核は巨大なデータセットではなく、専門家による強化学習にあったと説明しています。

アルトマン氏は、スケーリング仮説が終わったとの見方を強く否定。同社は数十億ドル規模のデータセンター建設を進めており、計算能力の増強が次なる飛躍に不可欠だと断言します。「GPT-6は5より、GPT-7は6より格段に良くなる」と自信を見せています。

興味深いのは、AGIの定義に関する変化です。OpenAIはAGIを「特定の到達点」ではなく、「経済や社会を変革し続ける終わりのないプロセス」と捉え直しています。GPT-5はその過程における、科学的進歩の可能性を示す「かすかな光」だと位置づけているのです。

出典：WIRED

元OpenAIムラティ氏、AI調整ツールTinker公開

2025年10月01日 OpenAI Meta ChatGPT Qwen Llama エンジニア創業者強化学習ファインチューニング GPU スタートアップ評価額オープンソースモデル

元OpenAI幹部の新挑戦

ミラ・ムラティ氏が新会社を設立

初製品はAIモデル調整ツールTinker

評価額120億ドルの大型スタートアップ

TinkerでAI開発を民主化

専門的な調整作業をAPIで自動化

強化学習でモデルの新たな能力を開拓

Llamaなどオープンソースモデルに対応

調整済みモデルはダウンロードして自由に利用可

詳細を見る

元OpenAIの最高技術責任者（CTO）であったミラ・ムラティ氏が共同設立した新興企業「Thinking Machines Lab」は2025年10月1日、初の製品となるAIモデル調整ツール「Tinker」を発表しました。このツールは、最先端AIモデルのカスタマイズ（ファインチューニング）を自動化し、より多くの開発者や研究者が高度なAI技術を利用できるようにすることを目的としています。

「Tinker」は、これまで専門知識と多大な計算資源を要したモデルのファインチューニング作業を大幅に簡略化します。GPUクラスタの管理や大規模な学習プロセスの安定化といった複雑な作業を自動化し、ユーザーはAPIを通じて数行のコードを記述するだけで、独自のAIモデルを作成できるようになります。

特に注目されるのが、強化学習（RL）の活用です。共同創業者でChatGPT開発にも関わったジョン・シュルマン氏が主導するこの技術により、人間のフィードバックを通じてモデルの対話能力や問題解決能力を飛躍的に向上させることが可能です。Tinkerは、この「秘伝のタレ」とも言える技術を開発者に提供します。

Thinking Machines Labには、ムラティ氏をはじめOpenAIの元共同創業者や研究担当副社長など、トップレベルの人材が集結しています。同社は製品発表前にすでに20億ドルのシード資金を調達し、評価額は120億ドルに達するなど、業界から極めて高い期待が寄せられています。

現在、TinkerはMeta社の「Llama」やAlibaba社の「Qwen」といったオープンソースモデルに対応しています。大手テック企業がモデルを非公開にする傾向が強まる中、同社はオープンなアプローチを推進することで、AI研究のさらなる発展と民主化を目指す考えです。これにより、イノベーションの加速が期待されます。

出典：WIRED

Hugging Face、軽量AIでGUI操作エージェント開発手法を公開

2025年09月24日エンジニア強化学習ファインチューニングエージェントベンチマーク教師

詳細を見る

AIプラットフォームのHugging Faceは2025年9月24日、軽量な視覚言語モデル（VLM）をGUI操作エージェントに進化させる新手法「Smol2Operator」を公開しました。この手法は2段階のファインチューニングを通じて、モデルに画面要素の認識能力と複雑なタスクの計画・実行能力を付与します。同社はGUI自動化技術の発展を促進するため、訓練手法やデータセット、モデルを全てオープンソース化し、開発の再現性を高めています。 GUI操作AIの開発では、データセットごとに操作の記述形式が異なり、統一的な学習が困難でした。この課題に対し、同社は多様なデータ形式を標準化された一つのアクション空間に変換するパイプラインを開発。これにより、様々なデータソースを一貫してモデル訓練に活用できるようになりました。企業の開発者は、独自の操作体系に合わせてデータセットを容易に変換できます。訓練の第1段階では、モデルにGUI上の要素を正確に認識・特定する「グラウンディング能力」を付与します。「ボタンをクリックする」といった低レベルの指示と、画面上の座標を含む実行コードを対にしたデータで学習させ、モデルが画面を「見る」能力の基礎を築きます。これにより、AIは指示された対象を正確に特定できるようになります。第2段階では、モデルに思考力と計画能力を植え付けます。より高レベルで複雑な指示に対し、次の行動を思考し、複数のステップに分解して実行するデータで訓練します。これにより、モデルは単なる要素認識から、主体的にタスクを遂行するエージェントへと進化し、より複雑な業務自動化への道を開きます。この2段階訓練により、SmolVLM2-2.2Bという比較的小規模なモデルでも、GUI要素の認識ベンチマークで高い性能を達成しました。同社は、この成果の再現性を担保するため、データ処理ツール、統一されたデータセット、訓練済みモデルを全て公開しており、誰でも追試や応用開発が可能です。今後の展望として、教師あり学習（SFT）だけでなく、強化学習（RL）や直接選好最適化（DPO）といった手法の活用が挙げられています。これらの手法により、エージェントが静的なデータから学ぶだけでなく、実環境でのインタラクションを通じて学習・改善する、より高度な能力の獲得が期待されます。

出典：Hugging Face

AIエージェント性能向上へ、強化学習『環境』に投資が集中

2025年09月21日 Anthropic Mercor シミュレーションエンジニア専門家強化学習リスクインフラコーディングシリコンバレースタートアップ投資評価額エージェント

詳細を見る

シリコンバレーで、自律的にタスクをこなすAIエージェントの性能向上を目指し、強化学習（RL）で用いるシミュレーション「環境」への投資が急増しています。大手AIラボから新興企業までが開発に注力しており、次世代AI開発の鍵を握る重要技術と見なされています。従来の静的データセットによる学習手法の限界が背景にあります。では、RL環境とは何でしょうか。これはAIがソフトウェア操作などを模擬した仮想空間で訓練を行うためのものです。例えばブラウザで商品を購入するタスクをシミュレートし、成功すると報酬を与えます。これにより、エージェントは試行錯誤を通じて実践的な能力を高めるのです。この分野への需要は急拡大しており、大手AIラボはこぞって社内でRL環境を構築しています。The Informationによれば、Anthropicは来年RL環境に10億ドル以上を費やすことを検討しており、業界全体の投資熱の高さを示しています。AI開発競争の新たな主戦場となりつつあります。この好機を捉え、RL環境に特化した新興企業も登場しています。Mechanize社はAIコーディングエージェント向けの高度な環境を提供。Prime Intellect社はオープンソース開発者向けのハブを立ち上げ、より幅広い開発者が利用できるインフラ構築を目指しています。データラベリング大手もこの市場シフトに対応しています。Surge社は需要増を受け、RL環境構築専門の組織を設立。評価額100億ドルとされるMercor社も同様に投資を強化し、既存の顧客基盤を活かして市場での地位を固めようとしています。ただし、この手法の有効性には懐疑的な見方もあります。専門家は、AIが目的を達成せずに報酬だけを得ようとする「報酬ハッキング」のリスクを指摘。AI研究の進化は速く、開発した環境がすぐに陳腐化する懸念もあります。スケーラビリティへの課題も残り、今後の進展が注目されます。

出典：TechCrunch

Gemini 2.5がICPCで金獲得。人間不能の難問を30分で解決しAGIへ前進

2025年09月17日 Google DeepMind Gemini Deep Think 生産性アシスタントネットワーク数学エンジニア推論強化学習事前学習半導体 AGI コーディングデバッグ創薬エージェント

プログラミング能力の証明

ICPC世界大会で金メダルレベルの成績

全12問中10問を正解し総合2位相当

人間チームが解けなかった難問Cを突破

国際数学オリンピック（IMO）に続く快挙

技術的ブレイクスルー

マルチステップ推論と並列思考能力を活用

動的計画法と革新的な探索手法を適用

創薬や半導体設計など科学工学分野への応用期待

プログラマーの真の協働パートナーとなる可能性

詳細を見る

Google DeepMindのAIモデル「Gemini 2.5 Deep Think」が、2025年国際大学対抗プログラミングコンテスト（ICPC）世界大会で金メダルレベルの成果を達成しました。人間チームが誰も解けなかった複雑な最適化問題を見事に解決し、抽象的な問題解決能力におけるAIの劇的な進化を証明しました。

Geminiは競技ルールに従い、5時間の制限時間で12問中10問を正解しました。これは出場した大学139チームのうち、トップ4にのみ与えられる金メダルレベルに相当し、大学チームと比較すれば総合2位の成績となります。

特に注目すべきは、全ての人間チームが解決できなかった「問題C」を、Geminiが開始からわずか30分以内に効率的に解いた点です。これは、無限に存在する構成の中から、最適な液体分配ネットワークを見つけ出すという、極めて困難な課題でした。

Geminiは、各リザーバーに「プライオリティ値」を設定し、動的計画法を適用するという革新的なアプローチを採用しました。さらにミニマックス定理を利用し、最適解を効率的に導出するためにネストされた三進探索を駆使しました。

この快挙は、プレトレーニング、強化学習、そして複数のGemini エージェントが並列で思考し、コードを実行・検証するマルチステップ推論技術の統合によって実現しました。これにより、Geminiは最も困難なコーディング課題からも学習し進化しています。

ICPCの成果は、AIがプログラマーにとって真の問題解決パートナーになり得ることを示しています。AIと人間の知見を組み合わせることで、ロジスティクスやデバッグ、創薬、マイクロチップ設計といった科学・工学分野の複雑な課題解決を加速させることが期待されます。

この先進技術の一部は、すでにGoogle AI Ultraのサブスクリプションを通じて、軽量版のGemini 2.5 Deep Thinkとして提供されています。AIコーディングアシスタントの知能が飛躍的に向上し、開発現場の生産性向上に直結するでしょう。

出典：Google公式 | DeepMind公式 | Ars Technica

AIブームが巨大企業を置き去りにする可能性

2025年09月14日 OpenAI Anthropic Gemini Claude GPT-5 創業者強化学習ファインチューニング事前学習事後学習リスクインフラスタートアップブランド基盤モデル

基盤モデルの価値変化

基盤モデルはコモディティ化へ

事前学習の効果が鈍化

事後学習と強化学習へ注目が移行

競争環境の変化

アプリケーション層での競争が激化

オープンソース代替案の台頭

低マージン事業への転落リスク

企業戦略の再構築

ファインチューニングとUI設計が重要

基盤モデル企業の優位性は縮小

新たな競争優位性の模索が必要

詳細を見る

AIブームが進む中、基盤モデルを開発する巨大企業が置き去りにされる可能性が浮上している。かつては「GPTラッパー」と軽視されたAIスタートアップが、特定タスク向けのモデルカスタマイズやインターフェース設計に注力し始めたからだ。

基盤モデルの価値が変化している背景には、事前学習のスケーリング効果が鈍化している事実がある。AIの進歩は止まっていないが、超大規模モデルの初期利益は減少し、事後学習や強化学習が新たな進化の源泉となっている。

競争環境も変化している。スタートアップはGPT-5、Claude、Geminiなど基盤モデルを互換性のある部品として扱い、ユーザーが気づかない間にモデルを切り替えることを前提に設計している。

この状況は、OpenAIやAnthropicのような基盤モデル企業を低マージンのコモディティ事業のバックエンドサプライヤーに変えるリスクをはらんでいる。ある創業者はこれを「スターバックスにコーヒー豆を売るようなもの」と表現した。

もちろん、基盤モデル企業が完全に脱落するわけではない。ブランド力、インフラ、巨額の資金など持続的な優位性も存在する。しかし、昨年までの「より大きな基盤モデルを構築する」という戦略は魅力を失いつつある。

AI開発の速いペースを考えると、現在の事後学習への注目も半年後には逆転する可能性がある。最も不確実なのは、汎用人工知能への競争が医薬品や材料科学で新たなブレークスルーを生み出す可能性だ。

結局のところ、AIの価値は基盤モデル自体ではなく、それを活用するアプリケーションやユーザー体験に移行しつつある。企業はこの変化に適応し、新たな競争優位性を築く必要に迫られている。

出典：TechCrunch

強化学習（モデル学習手法・技術）に関するニュース一覧

強化学習（モデル学習手法・技術）に関するニュース一覧

AIの信頼性を高める

計算効率と表現力の向上

視覚データの高度な活用

AIロボット訓練の新手法

製造業へのインパクト

AI評価を阻む「組織の壁」

信頼できるAI Judge構築法

独自モデル「Composer」

IDEもメジャー更新

自社製LLMの驚異的な性能

強化学習で「現場」を再現

驚異的な企業価値

独自のビジネスモデル

今後の成長戦略

1兆パラメータモデルRing-1T

独自技術で学習効率化

AIで核融合開発を加速

次世代核融合炉「SPARC」

AIの具体的な役割

AIエージェントの提供価値

大型資金調達の概要

SEAL技術の概要

具体的な性能

今後の課題と展望

思考を促す新訓練手法

推論能力の大幅な向上

独自の人材獲得戦略

ポストScale AI時代の潮流

注目の資金調達

AI開発のボトルネック解消

分散型アプローチの仕組み

訓練環境の課題克服

コア技術とリアリティ担保

高精度なシーン生成

新CTOが担う役割

パティル氏のキャリア資産

AI進化の二極化

性能向上を左右する要素

「GPT-5」への逆風

OpenAIの反論

元OpenAI幹部の新挑戦

TinkerでAI開発を民主化

プログラミング能力の証明

技術的ブレイクスルー

基盤モデルの価値変化

競争環境の変化

企業戦略の再構築

関連キーワード

同じカテゴリ

他カテゴリ