NVIDIAが初の自律型AI性能指標で首位

2026年06月12日 NVIDIA DeepSeek 検索専門家経営者推論

ベンチマーク結果

業界初のAgentPerfで計測

電力当たり20倍の処理能力

GB300 NVL72が最高性能

性能の源泉

72基のGPUをラック統合

通信と計算の重ね合わせ最適化

推論基盤の全層協調設計

実運用への波及

主要推論事業者が既に採用

コーディング支援の現場稼働

出典：NVIDIA公式

詳細を読む

半導体大手のNVIDIAは2026年6月12日、調査会社Artificial Analysisが公開した業界初の自律型AI向け性能指標「AgentPerf」の初回結果で、自社のBlackwell世代基盤「GB300 NVL72」が首位に立ったと発表しました。同基盤は前世代のH200システムと比べ、消費電力1メガワット当たり最大20倍のAIエージェントを稼働させたとされます。

なぜ専用の指標が必要なのでしょうか。従来の推論ベンチマークは、1回のLLM呼び出しに対する応答速度や同時処理数を測るものでした。これに対し自律型AIは、一つの目標を多数の手順に分解し、コード実行やデータベース検索などのツール呼び出しを挟みながら、数十から数百回のLLM呼び出しを連鎖させて動きます。負荷は単純な足し算ではなく乗算的に増えるため、既存指標では捉えきれないという課題がありました。

AgentPerfは、実在する公開コードリポジトリ由来のコーディング作業の軌跡をもとに設計されています。エージェントが課題を受け取り、ファイルを読み、コードを書いて実行し、結果を見て修正を繰り返す一連の流れを再現し、応答性と出力速度の基準を満たしながら何件の作業を同時にこなせるかを測ります。ツール呼び出しは実行せずCPU処理時間で模擬するため、差は計算基盤の性能のみを反映します。

首位の要因は、基盤全体にわたる徹底した協調設計にあります。GB300 NVL72は72基のGPUを単一のラック規模システムに束ね、DeepSeek V4 Proのような大規模な混合エキスパート型モデルを効率よく分散実行します。さらにCUDAカーネルが通信と計算を重ね合わせ、専門家間の調整コストを遅延に上乗せせず吸収する仕組みです。

結果は基盤投資の判断に直結します。加速器1台あたり、電力1メガワットあたりで何件の自律型作業を回せるかという数値は、企業がエージェントを大規模展開する際の投資対効果を左右するためです。BasetenやDeepInfra、Together AIといった主要な推論事業者は既にBlackwell上で最先端モデルを運用しており、AIコーディング基盤Cursorのエージェントなどが実際の現場で稼働しています。

NVIDIAは今後も推論ソフトウェアの最適化により性能と効率が向上すると見込んでいます。次世代の「Vera Rubin」アーキテクチャも本格生産に入り、拡大する自律型AIの需要に応える構えです。経営者にとっては、対話型から自律型へとAIの主戦場が移るなか、基盤選びの評価軸そのものが変わりつつある点に注目すべきでしょう。