Google、Gemma 4に投機的デコードで最大3倍高速化

2026年05月06日 Google Gemini 推論 GPU ハードウェアクラウド

投機的デコードの仕組み

軽量ドラフターが次トークンを先読み

メインモデルの待機時間を有効活用

KVキャッシュ共有で再計算不要

スパースデコードで候補を絞り込み

ローカルAIへの影響

消費者GPU上の推論速度を大幅改善

E2Bドラフターはわずか7400万パラメータ

Apache 2.0ライセンスで自由に利用可能

メモリ帯域のボトルネックを軽減

出典：Ars Technica

詳細を読む

Googleは2026年5月、オープンモデルGemma 4向けに「Multi-Token Prediction（MTP）」と呼ばれるドラフターモデルを公開しました。投機的デコード（speculative decoding）の手法を活用し、テキスト生成速度を最大3倍に引き上げることができます。ローカル環境でAIを動かすユーザーにとって、大きな性能改善となります。

通常、Gemma 4のような大規模言語モデルはトークンを1つずつ逐次生成します。各トークンの生成にはモデルパラメータをメモリから計算ユニットへ転送する必要があり、エンタープライズ向けの高帯域メモリ（HBM）と比べて遅い消費者向けGPUでは、この転送がボトルネックになっていました。MTPはこの待機時間を利用して軽量なドラフターモデルに次のトークンを推測させる仕組みです。

ドラフターモデルのサイズはE2Bでわずか7400万パラメータと非常にコンパクトです。メインモデルのKVキャッシュ（文脈を保持するアクティブメモリ）を共有することで、すでに処理済みの文脈を再計算する必要がありません。さらにスパースデコード技術を用いて、候補となるトークンのクラスタを事前に絞り込むことで、推測の精度と速度を両立しています。

Gemma 4はGoogleのフロンティアモデルGeminiと同じ技術基盤で構築されていますが、ローカル実行に最適化されています。ライセンスもApache 2.0に変更され、以前のカスタムライセンスよりも大幅に自由度が高まりました。クラウドにデータを送らずに手元のハードウェアでAIを活用したいユーザーにとって、今回のMTPドラフター公開は実用性を一段と高めるものといえるでしょう。