NVIDIA Blackwell、MLPerf Training 6.0の全7部門で首位
詳細を読む
NVIDIAは6月16日、AI学習性能を測る業界ベンチマークMLPerf Training 6.0において、同社のBlackwellプラットフォームが全カテゴリで首位に立ったと発表しました。全7ベンチマークで最速の学習時間を記録し、唯一すべての項目に結果を提出した点が特徴です。最大8192基のGPUを用いた大規模学習も実証しました。
今回の評価では、急速に普及するMoE(混合エキスパート)アーキテクチャを反映し、DeepSeek-V3 671BとGPT-OSS-20Bという2つの事前学習ワークロードが新たに追加されました。NVIDIAはこの2課題を含む全7項目で最速を達成し、ラックスケール型のGB200 NVL72とGB300 NVL72の両システムで結果を提出しています。
性能向上の鍵は世代交代にあります。新型のGB300 NVL72は、同規模の構成で従来のGB200 NVL72に比べ最大1.6倍速い学習を実現しました。NVFP4による高い計算密度、拡張されたメモリ容量、ピーク性能を維持できる高い電力上限が、この改善を支えています。
規模の面でも記録を更新しました。最大のMoEモデルであるDeepSeek-V3 671Bでは、GB200 NVL72システムを用いて8192基のGPUまで拡張し、MLPerf TrainingにおけるBlackwellベースで最大規模の提出となりました。CoreWeaveはGB300 NVL72とSpectrum-X Ethernetを組み合わせ、このモデルで2.02分という最速の学習時間を達成しています。
本番環境での信頼性も重視されています。NVIDIAは出荷前に30以上の製造テスト工程でGPUを検査し、障害を未然に防ぐほか、障害発生時にはNVRxがチェックポイントから学習を再開し、ジョブ全体の再起動を回避します。今回はMicrosoft AzureやCoreWeaveなど19の組織がパートナーとして参加しました。