NVIDIAの推論ソフト、トークン費用5分の1に

2026年06月30日 NVIDIA DeepSeek 検索ネットワーク経営者推論

費用削減の中身

DeepSeek V4で1カ月で5倍改善

トークン単価を約5分の1に圧縮

Blackwell上で性能を継続改善

技術と採用例

3層連携で最大20倍の処理量

TensorRT-LLMやDynamoを提供

Baseten・Cognitionらが採用

PyTorchなどOSSが性能を増幅

出典：NVIDIA公式

詳細を読む

NVIDIAは6月30日、自社の推論ソフトウェアスタックがBlackwellプラットフォーム上でDeepSeek V4のトークンコストを約1カ月で最大5倍引き下げたと発表しました。AI factoryの普及で企業の関心が、チップの最大性能から1ドルあたりに供給できるトークン数へと移るなか、ソフトウェア最適化を競争力の中核に据える狙いです。

背景にあるのは、AIワークロードの質的な変化です。従来のWebや検索は処理経路が似通い、サーバーを増やせば対応できました。一方でagentic AIは推論や計画、ツール呼び出しを伴い、1つの要求が数百のサブエージェントと複数のモデルにまたがる分散コンピューティングへと変わります。

NVIDIAはこの複雑さを無駄ではなく低コストに変えるため、ソフトを3層で連携させています。分散配信やオートスケールを担う運用層、カーネル融合などのランタイム最適化を行うアプリ高速化層、GPUやネットワークの能力を引き出すインフラアクセス層です。これらが一体で動くと個々の最適化が積み重なり、処理量は最大20倍に高まると説明します。

具体的な手法として、分散サービングやNVLinkを介した大規模なエキスパート並列、NVFP4精度、マルチトークン予測を挙げています。各技術は単体でも効果がありますが、組み合わせることで効果が掛け算的に増幅すると同社は強調します。

オープンソースもこの優位を後押しします。多くの主要フレームワークがCUDAを前提に作られており、PyTorchやvLLM、SGLangは新モデル公開と同時にBlackwell向けの最適化を実装できます。DeepSeek V4も公開直後から各フレームワークで性能が改善し、トークンコストが従来の約5分の1まで下がりました。

採用企業も広がっています。BasetenはTensorRT-LLMで毎秒トークン数を最大50%増やし、CognitionはDynamoで強化学習の基盤を簡素化しました。経営者にとっては、推論の経済性がハードだけでなくソフトウェアの成熟度で決まる段階に入ったことを示す動きと言えます。