Google、テキスト拡散モデルDiffusionGemmaを公開
詳細を読む
Google DeepMindは2026年6月10日、テキスト拡散モデル「DiffusionGemma」をApache 2.0ライセンスで公開しました。従来の自己回帰型LLMが1トークンずつ逐次的にテキストを生成するのに対し、DiffusionGemmaは画像生成AIと同様の拡散手法を用いて最大256トークンを同時に生成します。これにより、GPU上でのテキスト生成速度が最大4倍に向上します。
モデルはGemma 4ファミリーをベースとした26B規模のMixture of Experts構成で、推論時に起動するパラメータは3.8Bにとどまります。そのため量子化により高性能コンシューマーGPUのVRAM 18GBに収まります。双方向アテンションにより、インライン編集やコード補完、数理グラフなど非線形な生成タスクで従来モデルより優位性を発揮します。
NVIDIAは同日、DiffusionGemmaを自社GPU群で最適化したことを発表しました。単一のH100で毎秒1000トークン超、RTX 5090で毎秒約700トークンの推論速度を実現しています。DGX Spark、RTX PRO 6000、DGX Stationでも動作し、ローカル環境でのエージェント処理や対話型ワークフローに適しています。
Googleはこのモデルを実験的な位置づけとし、品質面では標準的なGemma 4が依然として推奨されると明記しています。一方で、速度重視のローカル推論やリアルタイムの対話型アプリケーション開発において、拡散ベースのテキスト生成が新たな選択肢になると強調しています。Hugging Face TransformersやvLLM、Unslothなど主要ツールで即日利用可能です。