NVIDIA Blackwell、MLPerf Training 6.0の全7部門で首位

全部門で最速を達成

全7ベンチマークで最速
新規追加のMoE2課題に対応
DeepSeek-V3とGPT-OSSを評価
GB300がGB200比最大1.6倍

8192GPUへ大規模展開

8192基GPUで最大規模学習
CoreWeaveが2.02分で目標到達
19社のパートナーが参加
詳細を読む

NVIDIAは6月16日、AI学習性能を測る業界ベンチマークMLPerf Training 6.0において、同社のBlackwellプラットフォームが全カテゴリで首位に立ったと発表しました。全7ベンチマークで最速の学習時間を記録し、唯一すべての項目に結果を提出した点が特徴です。最大8192基のGPUを用いた大規模学習も実証しました。

今回の評価では、急速に普及するMoE(混合エキスパート)アーキテクチャを反映し、DeepSeek-V3 671BとGPT-OSS-20Bという2つの事前学習ワークロードが新たに追加されました。NVIDIAはこの2課題を含む全7項目で最速を達成し、ラックスケール型のGB200 NVL72とGB300 NVL72の両システムで結果を提出しています。

性能向上の鍵は世代交代にあります。新型のGB300 NVL72は、同規模の構成で従来のGB200 NVL72に比べ最大1.6倍速い学習を実現しました。NVFP4による高い計算密度、拡張されたメモリ容量、ピーク性能を維持できる高い電力上限が、この改善を支えています。

規模の面でも記録を更新しました。最大のMoEモデルであるDeepSeek-V3 671Bでは、GB200 NVL72システムを用いて8192基のGPUまで拡張し、MLPerf TrainingにおけるBlackwellベースで最大規模の提出となりました。CoreWeaveはGB300 NVL72とSpectrum-X Ethernetを組み合わせ、このモデルで2.02分という最速の学習時間を達成しています。

本番環境での信頼性も重視されています。NVIDIAは出荷前に30以上の製造テスト工程でGPUを検査し、障害を未然に防ぐほか、障害発生時にはNVRxがチェックポイントから学習を再開し、ジョブ全体の再起動を回避します。今回はMicrosoft AzureやCoreWeaveなど19の組織がパートナーとして参加しました。