NVIDIA、トークン単価こそAIインフラ唯一の指標と主張

従来指標の限界

FLOPS単価は実性能を反映せず
計算コストは入力指標に過ぎない
トークン出力量が収益性を左右

Blackwellの実力

Hopper比トークン出力65倍
トークン単価は35分の1に低減
ワットあたり出力50倍を達成

推論経済の全体設計

FP4精度や投機的復号を統合
エコシステム全体の最適化が鍵
詳細を読む

NVIDIAは2026年4月15日、AIインフラの経済性を評価する際に最も重要な指標は「トークンあたりのコスト」であると公式ブログで主張しました。従来多くの企業が注目してきたGPU時間単価やFLOPS単価は「入力指標」に過ぎず、実際のビジネス成果を測るには、推論で生成されるトークンの単価を見るべきだと訴えています。

同社はトークン単価の計算式を提示し、分母にあたる「GPUあたりのトークン出力量」を最大化することが鍵だと説明しています。ハードウェア性能だけでなく、ソフトウェア最適化、ネットワーク、メモリ、ストレージまで含めたフルスタックの協調設計が不可欠であり、いずれかが欠けると分母が崩壊すると指摘しました。この考え方を「推論の氷山」と呼び、表面に見えるチップスペックだけでは実力を測れないと強調しています。

具体的なデータとして、DeepSeek-R1モデルでの比較結果を公開しました。最新のBlackwell(GB300 NVL72)はHopper(HGX H200)に対し、GPU時間単価は約2倍ですが、GPUあたりのトークン出力は65倍、ワットあたり出力は50倍に達します。その結果、100万トークンあたりのコストはHopperの4.20ドルに対しBlackwellは0.12ドルと、約35分の1まで低下しています。

NVIDIAはこの優位性の源泉として、計算・ネットワーク・メモリ・ソフトウェアにまたがる「極限の協調設計」を挙げています。vLLM、SGLang、TensorRT-LLMなどのオープンソース推論ソフトウェアの継続的な最適化により、既存インフラでもトークン出力は導入後も向上し続けるとのことです。CoreWeave、Nebius、Together AIなどのクラウドパートナーがすでにBlackwellインフラを展開し、業界最低水準のトークン単価を実現していると述べました。