NVIDIAの推論ソフト、トークン費用5分の1に

費用削減の中身

DeepSeek V4で1カ月で5倍改善
トークン単価を約5分の1に圧縮
Blackwell上で性能を継続改善

技術と採用例

3層連携で最大20倍の処理量
TensorRT-LLMやDynamoを提供
Baseten・Cognitionらが採用
PyTorchなどOSSが性能を増幅
詳細を読む

NVIDIAは6月30日、自社の推論ソフトウェアスタックがBlackwellプラットフォーム上でDeepSeek V4のトークンコストを約1カ月で最大5倍引き下げたと発表しました。AI factoryの普及で企業の関心が、チップの最大性能から1ドルあたりに供給できるトークン数へと移るなか、ソフトウェア最適化を競争力の中核に据える狙いです。

背景にあるのは、AIワークロードの質的な変化です。従来のWebや検索は処理経路が似通い、サーバーを増やせば対応できました。一方でagentic AIは推論や計画、ツール呼び出しを伴い、1つの要求が数百のサブエージェントと複数のモデルにまたがる分散コンピューティングへと変わります。

NVIDIAはこの複雑さを無駄ではなく低コストに変えるため、ソフトを3層で連携させています。分散配信やオートスケールを担う運用層、カーネル融合などのランタイム最適化を行うアプリ高速化層、GPUネットワークの能力を引き出すインフラアクセス層です。これらが一体で動くと個々の最適化が積み重なり、処理量は最大20倍に高まると説明します。

具体的な手法として、分散サービングやNVLinkを介した大規模なエキスパート並列、NVFP4精度、マルチトークン予測を挙げています。各技術は単体でも効果がありますが、組み合わせることで効果が掛け算的に増幅すると同社は強調します。

オープンソースもこの優位を後押しします。多くの主要フレームワークがCUDAを前提に作られており、PyTorchやvLLM、SGLangは新モデル公開と同時にBlackwell向けの最適化を実装できます。DeepSeek V4も公開直後から各フレームワークで性能が改善し、トークンコストが従来の約5分の1まで下がりました。

採用企業も広がっています。BasetenはTensorRT-LLMで毎秒トークン数を最大50%増やし、CognitionはDynamoで強化学習の基盤を簡素化しました。経営者にとっては、推論の経済性がハードだけでなくソフトウェアの成熟度で決まる段階に入ったことを示す動きと言えます。