DeepSeekが推論高速化技術DSparkをMIT公開

2026年06月29日 GitHub DeepSeek Qwen エンジニア推論ハードウェア

技術の中身

投機的デコードの新手法

ドラフトが先読みし本体が検証

半自己回帰生成で精度両立

負荷に応じた検証量調整

性能と適用範囲

ユーザー体感で最大85%高速化

Qwen・Gemmaにも適用可能

自社ホスト型モデルが対象

出典：VentureBeat

詳細を読む

中国のDeepSeekが2026年6月の週末に、大規模言語モデル（LLM）の推論を高速化する新フレームワークDSparkをオープンソース公開しました。商用利用も認める寛容なMITライセンスで、GitHubとHugging Faceから入手できます。出力内容を変えずに応答速度を高める点が特徴で、開発者や企業が自由に研究・転用できます。

DSparkが採用するのは投機的デコードと呼ばれる手法です。LLMは通常、文章を1トークンずつ順番に生成するため処理が遅くなりますが、軽量な「ドラフト」が次の数トークンを先読みして提案し、本体モデルがまとめて検証します。推測が当たれば一気に複数トークン進み、外れた部分だけ破棄して作り直す仕組みです。

今回の核心は2つの工夫にあります。1つは半自己回帰生成で、並列処理の速さと逐次処理の一貫性を両立させ、不自然な語のつながりを抑えます。もう1つは確信度に応じた検証で、ハードウェアを意識したスケジューラーがサーバー負荷に合わせて検証するトークン量を柔軟に変え、無駄な計算を減らします。

DeepSeekの本番環境テストでは、自社モデルのV4-Flashで最大85%、V4-Proで最大78%のユーザー体感速度向上を記録しました。さらに厳しい速度目標下では総処理量が661%増えたとも報告しています。前者は「乗り心地の速さ」、後者は「道路がさばける交通量」を測った指標だと同社は説明します。

重要なのは、この技術がDeepSeek専用ではない点です。同社の検証ではアリババのQwenやグーグルのGemmaでも受理長が改善し、自社でモデルの重みとサーバー基盤を管理する企業なら、独自のドラフトモジュールを学習させて適用できます。ただしAPI経由の利用者は外部から後付けできず、自己ホスト型インフラの優位性を裏付ける結果となりました。

DSparkは、モデル本体の構造を変えなくても推論層に大きな性能の余地が残ることを示しました。AI各社がモデル品質や価格で競う中、デコード効率は新たな主戦場になりつつあります。今後の性能向上は巨大モデルだけでなく、手元のモデルをいかに賢く動かすかにかかっていると言えるでしょう。