企業GPU稼働率わずか5%、恐怖心が最適化を阻む悪循環

調達と構造の二重のムダ

GPU稼働率わずか5%の実態
割当喪失の恐怖で過剰確保が常態化
コンテナ設計がGPU遊休時間を増大
AWSがH200予約価格を15%値上げ

改善への具体策

タイムゾーン活用のGPU共有が有効
ワークロード別のチップ選定が急務
H100やA100で40〜60%のコスト削減可能
調達と運用を一体で見直す必要性
詳細を読む

企業のGPUフリート稼働率がわずか5%にとどまっていることが、Cast AIの2026年版Kubernetes最適化レポートで明らかになりました。これは人手による通常管理で達成できる約30%を大幅に下回る数値です。同社の共同創業者Laurent Gil氏は、クラウドGPUの調達構造そのものが問題の根源だと指摘しています。

稼働率が極端に低い原因は、調達とアーキテクチャの二重構造にあります。企業がGPUを確保する際、数週間から数カ月の待機期間を経てようやく割当を受けますが、1年または3年の契約が条件です。一度確保したGPUは、再取得の困難さから誰も手放そうとしません。手放せば稼働率は改善するが、手放した瞬間に再入手できなくなるという矛盾が、過剰確保の悪循環を生んでいます。

アーキテクチャ面でも問題は深刻です。Anyscaleの分析によると、AIワークロードはCPU処理とGPU処理を交互に行うため、1つのコンテナにまとめるとGPUが大半の時間遊休状態になります。Gartnerも同様の結論に達しており、プロジェクト横断でのGPU共有と推論の分離を推奨しています。調達の過剰確保とコンテナ設計の非効率が重なり、5%という数字が生まれているのです。

クラウド市場は二層に分裂しています。H100のオンデマンド価格は2025年9月の約7.57ドルから約3.93ドルへ下落した一方、最新のH200は需要が供給の約3倍に達し、AWSは2026年1月に予約価格を約15%値上げしました。クラウドコンピューティングが毎年安くなるという20年来の前提は、最先端チップでは崩れつつあります。

では企業は何をすべきでしょうか。まず問うべきは「本当にH200が必要か」という点です。H200は70B以上のパラメータと128K以上のコンテキストを持つ大規模モデル向けであり、多くの本番ワークロードではH100で40%、A100で60%のコスト削減が可能です。タイムゾーンを活用したGPU共有、MIGによるチップ分割、vLLMやDynamoによる推論分離など、既存リソースの活用策は存在します。調達と運用を別々の予算項目として扱うのではなく、一つのループとして一体的に最適化することが、この悪循環を断ち切る鍵となります。