拡散型言語モデルでNVIDIAが推論6倍速を実現

2026年05月23日 NVIDIA Qwen エンジニア推論ファインチューニング事前学習

3つの推論モードを統合

自己回帰と拡散生成を1モデルに統合

自己投機モードで精度維持と高速化を両立

3B・8B・14Bの3サイズで提供

商用利用可能なライセンスで公開

速度と精度の両立

拡散モードでAR比2.6倍の生成効率

自己投機で最大6.4倍の高速化を達成

8BモデルがQwen3 8Bを精度1.2%上回る

B200で毎秒約865トークンを記録

出典：Hugging Face

詳細を読む

NVIDIAは2026年5月23日、自己回帰（AR）と拡散（Diffusion）の両方の生成方式を1つのモデルに統合した言語モデルファミリー「Nemotron-Labs Diffusion」を公開しました。3B・8B・14Bのテキストモデルと8Bのビジョン言語モデルをHugging Face上で提供し、商用利用可能なライセンスで配布しています。

従来の大規模言語モデルはトークンを1つずつ逐次生成する自己回帰方式を採用しており、GPUの演算能力を十分に活用できないという課題がありました。Nemotron-Labs Diffusionは複数トークンを並列に生成し、段階的に修正する拡散方式を導入することで、この制約を突破します。生成済みトークンの修正も可能なため、誤りの伝播を抑制できます。

同モデルは3つの推論モードを備えています。従来通りの自己回帰モード、32トークン単位でブロック生成する拡散モード、そして拡散で下書きし自己回帰で検証する自己投機モードです。自己投機モードでは温度0で自己回帰と同一の出力品質を維持しながら、大幅な高速化を実現します。

性能面では、8BモデルがQwen3 8Bに対し平均精度で1.2ポイント上回りました。推論速度はハードウェア非依存の指標であるTPF（tokens per forward pass）で、拡散モードがAR比2.6倍、自己投機モードが最大6.4倍を達成しています。NVIDIA B200上のベンチマークでは毎秒約865トークンの生成速度を記録しました。

学習にはNVIDIAのNemotron事前学習データセットから1.3兆トークン、ファインチューニングに450億トークンを使用しています。推論エンジンSGLangでの対応が進んでおり、設定1行の変更で3モードを切り替え可能です。学習コードもMegatron Bridgeフレームワーク経由で公開されており、開発者はすぐに利用を開始できます。