Google、ノートPCで動くGemma 4 12Bを公開

エンコーダ不要の新設計

エンコーダ廃止音声画像を直接処理
視覚処理は3500万パラメータの軽量モジュールで代替
音声は生波形をそのまま埋め込み空間に投影
推論遅延とメモリ消費を同時に削減

ローカル実行の実力

16GBのRAMまたはVRAMで動作可能
26B MoEモデルに迫るベンチマーク性能
256Kトークンの長大コンテキスト対応
Apache 2.0ライセンスで商用利用自由

企業導入の判断基準

機密データのオフライン処理に最適
エージェント構築向け関数呼び出しを標準搭載
音声30秒・動画60秒の入力上限に注意
詳細を読む

Googleは2026年6月3日、オープンウェイトの大規模言語モデルGemma 4 12Bを公開しました。約120億パラメータながら16GBのRAMまたはVRAMで動作し、一般的なノートPCでマルチモーダルAIをローカル実行できます。4月に発表されたGemma 4ファミリーのモバイル向けモデルとデータセンター向け26Bモデルの間を埋める位置づけです。

最大の技術的特徴はエンコーダ不要の統合アーキテクチャです。従来のマルチモーダルモデルは画像音声を処理する専用エンコーダを別途必要としていましたが、Gemma 4 12Bは視覚パッチと生の音声波形をLLM本体の埋め込み空間に直接投影します。視覚エンコーダは単一の行列演算による3500万パラメータの軽量モジュールで置き換えられ、音声エンコーダは完全に廃止されました。この設計により推論遅延とメモリ使用量の両方が低減されています。

性能面では、メモリフットプリントが26B MoEモデルの半分以下でありながら、ベンチマークではそれに迫るスコアを達成しています。256Kトークンのコンテキストウィンドウを備え、長大な財務レポートやコードベースの処理にも対応します。ネイティブの関数呼び出し機能やステップバイステップの推論モードも搭載しており、自律型エージェントの構築基盤として設計されています。

企業にとっての実用的価値はどこにあるのでしょうか。医療・金融・防衛など機密データを外部APIに送信できない規制業界では、完全ローカルでのマルチモーダル処理が可能になります。Apache 2.0ライセンスで商用利用も自由です。一方、音声入力は30秒、動画は60秒という処理上限があり、長時間メディアの処理には向きません。Hugging Face・Kaggle・vLLM・llama.cppなど主要エコシステムとの統合も初日から対応しており、即座に本番導入を検討できる状態です。