GoogleがGemma 4向けMTPドラフター公開、推論速度最大3倍に
詳細を読む
Googleは2026年5月5日、オープンモデルGemma 4ファミリー向けにMulti-Token Prediction(MTP)ドラフターをリリースしました。投機的デコード技術を活用し、推論品質を一切損なうことなく最大3倍の速度向上を実現します。Gemma 4は公開からわずか数週間で6000万回以上ダウンロードされており、今回のMTPドラフター公開でさらなる普及が見込まれます。
標準的なLLM推論はメモリ帯域幅がボトルネックとなり、1トークン生成のたびに数十億パラメータをVRAMから計算ユニットに転送する必要があります。MTPドラフターはこの問題に対し、軽量な補助モデルが複数の将来トークンを高速に予測し、本体モデルが一括で検証するという投機的デコード方式を採用しています。本体モデルがドラフトに同意すれば、通常1トークン分の時間でシーケンス全体とさらに1トークンを出力できます。
技術面では、ドラフトモデルが本体モデルの活性化情報とKVキャッシュを共有する設計により、コンテキストの再計算を省略しています。エッジ向けのE2B・E4Bモデルでは、エンベッダーにクラスタリング技術を導入してロジット計算のボトルネックも解消しました。Apple Silicon上の26B MoEモデルではバッチサイズ4〜8で約2.2倍、NVIDIA A100でも同様の高速化が確認されています。
MTPドラフターはGemma 4と同じApache 2.0ライセンスで公開されており、Hugging Face、Kaggle、MLX、vLLM、SGLang、Ollamaなど主要プラットフォームで即日利用可能です。コーディング支援、自律エージェント、モバイルアプリなど、レイテンシが重視されるあらゆるユースケースで開発者の生産性向上に直結する技術といえます。