NVIDIA、AI訓練用オープンデータ2PB超を公開

NVIDIAHugging Face

公開データの全体像

180超のデータセット公開
2PB超のAI訓練データ提供
HuggingFaceで許容的ライセンス
ロボティクスから創薬まで網羅

主要データセットと成果

Nemotron Personasで精度大幅向上
ClimbMixでH100計算時間33%削減
La Proteina、構造多様性73%改善
日本向け9Bモデルがリーダーボード首位
詳細を読む

NVIDIAは2026年3月10日、AI開発の基盤となるオープンデータ戦略について包括的に発表しました。同社はこれまでに2ペタバイト超のAI訓練用データを180以上のデータセットとして公開しており、650を超えるオープンモデルとともにHuggingFace上で提供しています。

公開データはロボティクス、自動運転、生物学、評価ベンチマークなど多岐にわたります。Physical AIコレクションには50万件超のロボティクス軌跡データや25カ国1,700時間分の自動運転データが含まれ、Runway社のGWM-Roboticsワールドモデル開発にも活用されています。

Nemotron Personasは実際の人口統計に基づく合成ペルソナデータセットで、日本を含む各国版が提供されています。CrowdStrikeは200万ペルソナを活用しNL→CQL翻訳精度を50.7%から90.4%に向上させ、日本ではNTTデータやAPTOが法律QA精度を15.3%から79.3%に改善しました。

事前学習用データセットも進化を遂げています。Nemotron-ClimbMixは400Bトークンの事前学習データで、Andrej Karpathy氏が注目するTime-to-GPT-2リーダーボードで最大の改善を達成しました。H100での計算時間を従来比約33%削減し、NanoChatのデフォルトデータレシピに採用されています。

NVIDIAはこれらのデータ公開を「オープンキッチン」と表現し、材料とレシピの共有によるエコシステム全体の発展を目指しています。安全性や強化学習向けデータセットの拡充も進めており、信頼性の高いAIモデルとエージェントシステムの共通基盤構築を推進しています。