Google、ノートPCで動くGemma 4 12Bを公開
詳細を読む
Googleは2026年6月3日、オープンウェイトの大規模言語モデルGemma 4 12Bを公開しました。約120億パラメータながら16GBのRAMまたはVRAMで動作し、一般的なノートPCでマルチモーダルAIをローカル実行できます。4月に発表されたGemma 4ファミリーのモバイル向けモデルとデータセンター向け26Bモデルの間を埋める位置づけです。
最大の技術的特徴はエンコーダ不要の統合アーキテクチャです。従来のマルチモーダルモデルは画像や音声を処理する専用エンコーダを別途必要としていましたが、Gemma 4 12Bは視覚パッチと生の音声波形をLLM本体の埋め込み空間に直接投影します。視覚エンコーダは単一の行列演算による3500万パラメータの軽量モジュールで置き換えられ、音声エンコーダは完全に廃止されました。この設計により推論遅延とメモリ使用量の両方が低減されています。
性能面では、メモリフットプリントが26B MoEモデルの半分以下でありながら、ベンチマークではそれに迫るスコアを達成しています。256Kトークンのコンテキストウィンドウを備え、長大な財務レポートやコードベースの処理にも対応します。ネイティブの関数呼び出し機能やステップバイステップの推論モードも搭載しており、自律型エージェントの構築基盤として設計されています。
企業にとっての実用的価値はどこにあるのでしょうか。医療・金融・防衛など機密データを外部APIに送信できない規制業界では、完全ローカルでのマルチモーダル処理が可能になります。Apache 2.0ライセンスで商用利用も自由です。一方、音声入力は30秒、動画は60秒という処理上限があり、長時間メディアの処理には向きません。Hugging Face・Kaggle・vLLM・llama.cppなど主要エコシステムとの統合も初日から対応しており、即座に本番導入を検討できる状態です。