Google、Gemma 4に投機的デコードで最大3倍高速化
出典:Ars Technica
詳細を読む
Googleは2026年5月、オープンモデルGemma 4向けに「Multi-Token Prediction(MTP)」と呼ばれるドラフターモデルを公開しました。投機的デコード(speculative decoding)の手法を活用し、テキスト生成速度を最大3倍に引き上げることができます。ローカル環境でAIを動かすユーザーにとって、大きな性能改善となります。
通常、Gemma 4のような大規模言語モデルはトークンを1つずつ逐次生成します。各トークンの生成にはモデルパラメータをメモリから計算ユニットへ転送する必要があり、エンタープライズ向けの高帯域メモリ(HBM)と比べて遅い消費者向けGPUでは、この転送がボトルネックになっていました。MTPはこの待機時間を利用して軽量なドラフターモデルに次のトークンを推測させる仕組みです。
ドラフターモデルのサイズはE2Bでわずか7400万パラメータと非常にコンパクトです。メインモデルのKVキャッシュ(文脈を保持するアクティブメモリ)を共有することで、すでに処理済みの文脈を再計算する必要がありません。さらにスパースデコード技術を用いて、候補となるトークンのクラスタを事前に絞り込むことで、推測の精度と速度を両立しています。
Gemma 4はGoogleのフロンティアモデルGeminiと同じ技術基盤で構築されていますが、ローカル実行に最適化されています。ライセンスもApache 2.0に変更され、以前のカスタムライセンスよりも大幅に自由度が高まりました。クラウドにデータを送らずに手元のハードウェアでAIを活用したいユーザーにとって、今回のMTPドラフター公開は実用性を一段と高めるものといえるでしょう。