Google、Gemma 4に投機的デコードで最大3倍高速化

投機的デコードの仕組み

軽量ドラフターが次トークンを先読み
メインモデルの待機時間を有効活用
KVキャッシュ共有で再計算不要
スパースデコードで候補を絞り込み

ローカルAIへの影響

消費者GPU上の推論速度を大幅改善
E2Bドラフターはわずか7400万パラメータ
Apache 2.0ライセンスで自由に利用可能
メモリ帯域のボトルネックを軽減
詳細を読む

Googleは2026年5月、オープンモデルGemma 4向けに「Multi-Token Prediction(MTP)」と呼ばれるドラフターモデルを公開しました。投機的デコード(speculative decoding)の手法を活用し、テキスト生成速度を最大3倍に引き上げることができます。ローカル環境でAIを動かすユーザーにとって、大きな性能改善となります。

通常、Gemma 4のような大規模言語モデルはトークンを1つずつ逐次生成します。各トークンの生成にはモデルパラメータをメモリから計算ユニットへ転送する必要があり、エンタープライズ向けの高帯域メモリ(HBM)と比べて遅い消費者向けGPUでは、この転送がボトルネックになっていました。MTPはこの待機時間を利用して軽量なドラフターモデルに次のトークンを推測させる仕組みです。

ドラフターモデルのサイズはE2Bでわずか7400万パラメータと非常にコンパクトです。メインモデルのKVキャッシュ(文脈を保持するアクティブメモリ)を共有することで、すでに処理済みの文脈を再計算する必要がありません。さらにスパースデコード技術を用いて、候補となるトークンのクラスタを事前に絞り込むことで、推測の精度と速度を両立しています。

Gemma 4はGoogleのフロンティアモデルGeminiと同じ技術基盤で構築されていますが、ローカル実行に最適化されています。ライセンスもApache 2.0に変更され、以前のカスタムライセンスよりも大幅に自由度が高まりました。クラウドにデータを送らずに手元のハードウェアでAIを活用したいユーザーにとって、今回のMTPドラフター公開は実用性を一段と高めるものといえるでしょう。