DeepSeek V4が75%値下げを恒久化、企業AI市場の価格構造を揺さぶる

価格と性能の両立

V4 Proの75%恒久値下げを発表
入力単価でClaude Sonnet7分の1
出力単価でGPT-5.5-Medの17分の1
キャッシュ読込は西側クラウド87倍安価

技術的な独自設計

KVキャッシュ使用量を90%削減する圧縮注意機構
100万トークン処理にHBMわずか5.48GB
FP4量子化で2倍の推論速度を実現

企業導入への影響

オープンウェイト+MITライセンスで自社運用可能
OpenRouterでトークン使用量首位を獲得
詳細を読む

中国のAIスタートアップDeepSeekは2026年5月、フラッグシップモデルV4 Proの75%値下げを恒久措置とすると発表しました。標準入力コストは100万トークンあたり0.435ドル、標準出力は0.87ドルに設定され、AnthropicClaude SonnetOpenAIGPT-5.5-Medを大幅に下回ります。とりわけキャッシュ読込単価は100万トークンあたり0.003625ドルと、西側クラウドの87分の1という水準です。エージェント処理ではトークンの80〜90%がキャッシュ読込であるため、この価格差の実務的インパクトは極めて大きいといえます。

この低コストを支えるのが、DeepSeek独自のハードウェア・ソフトウェア協調設計です。圧縮スパースアテンション(CSA)と高圧縮アテンション(HCA)を組み合わせたハイブリッド注意機構により、100万トークンの文脈窓でKVキャッシュ使用量を90%削減しました。さらにMulti-head Latent Attention(MLA)で重いデータペイロードをGPUの高帯域メモリからシステムメモリへオフロードし、1.6兆パラメータモデルの100万トークン処理に必要なHBMをわずか5.48GBに抑えています。従来型のモデルでは同条件で89GBを消費するため、差は歴然です。

企業のトークンコスト問題も追い風です。UberはClaude CodeCursorの2026年度予算をわずか4カ月で使い切り、PinterestはオープンソースのQwenを自社データで追加学習して90%のコスト削減を達成しました。VentureBeatの調査によれば、企業のAIモデル選定基準で「トークン単価・ライセンスモデル」の重視度は2026年1月の25.4%から3月には36.7%へ上昇しています。自社管理の推論スタックを導入する企業も11.3%から17.9%へ増加しました。

開発者向けルーティングサービスOpenRouterでは、DeepSeek V4 Flashが週間トークン使用量で首位を獲得し、上位3モデルの合計は約6兆トークンに達しました。一方、OpenAIGPT-5.5は15位の4,700億トークンにとどまっています。V4 ProとV4 FlashはいずれもオープンウェイトかつMITライセンスで公開されており、企業は自社環境での自由なデプロイが可能です。

もっとも、地政学的リスクは無視できません。米国の金融・医療・防衛分野の大企業にとって、中国製モデルのサプライチェーンリスクや制裁リスクは依然として障壁です。一方、記事はAnthropicのようなプレミアムソフトウェア統合型のラボと、汎用APIトークン収入に依存するOpenAIとでは影響度が異なると指摘しています。高精度が求められるミッションクリティカルな業務にはプレミアムモデル、大量トークンを消費するバックグラウンドエージェント処理にはオープンウェイトという二層構造が、企業AIの新たな標準になりつつあります。