Google、テキスト拡散モデルDiffusionGemmaを公開

2026年06月10日 Google NVIDIA ワークフロー画像生成推論 GPU

モデルの技術的特徴

256トークンを同時生成

Gemma 4ベースの26B MoE構成

推論時は3.8Bパラメータのみ起動

Apache 2.0でオープン公開

性能と対応環境

H100で毎秒1000トークン超

RTX 5090で毎秒約700トークン

自己回帰モデル比最大4倍高速

NVIDIAが各GPU向けに最適化

出典：DeepMind公式 | Ars Technica | NVIDIA公式

詳細を読む

Google DeepMindは2026年6月10日、テキスト拡散モデル「DiffusionGemma」をApache 2.0ライセンスで公開しました。従来の自己回帰型LLMが1トークンずつ逐次的にテキストを生成するのに対し、DiffusionGemmaは画像生成AIと同様の拡散手法を用いて最大256トークンを同時に生成します。これにより、GPU上でのテキスト生成速度が最大4倍に向上します。

モデルはGemma 4ファミリーをベースとした26B規模のMixture of Experts構成で、推論時に起動するパラメータは3.8Bにとどまります。そのため量子化により高性能コンシューマーGPUのVRAM 18GBに収まります。双方向アテンションにより、インライン編集やコード補完、数理グラフなど非線形な生成タスクで従来モデルより優位性を発揮します。

NVIDIAは同日、DiffusionGemmaを自社GPU群で最適化したことを発表しました。単一のH100で毎秒1000トークン超、RTX 5090で毎秒約700トークンの推論速度を実現しています。DGX Spark、RTX PRO 6000、DGX Stationでも動作し、ローカル環境でのエージェント処理や対話型ワークフローに適しています。

Googleはこのモデルを実験的な位置づけとし、品質面では標準的なGemma 4が依然として推奨されると明記しています。一方で、速度重視のローカル推論やリアルタイムの対話型アプリケーション開発において、拡散ベースのテキスト生成が新たな選択肢になると強調しています。Hugging Face TransformersやvLLM、Unslothなど主要ツールで即日利用可能です。