Mamba 3がTransformerを約4%上回る新アーキテクチャとして公開

技術的な3つの革新

状態サイズ半減で同等精度を実現
複素数値SSMで推論能力向上
MIMO方式でGPU稼働率を最大化
Apache 2.0で商用利用可能

企業への影響

推論スループットが実質2倍
エージェント型ワークフローに最適化
ハイブリッド構成が主流へ
量子化やICLに課題も残存
詳細を読む

カーネギーメロン大学のAlbert Gu氏とプリンストン大学のTri Dao氏らの研究チームが、新たなAIアーキテクチャ「Mamba 3」をApache 2.0ライセンスのオープンソースとして公開しました。Transformer対比で約4%の言語モデリング性能向上を達成しています。

Mamba 3は状態空間モデル(SSM)の最新版で、従来のTransformerが抱える二次計算量と線形メモリ要求の課題を解決します。前世代のMamba 2が学習速度の最適化に注力したのに対し、Mamba 3は「推論ファースト」の設計哲学を採用し、GPUの遊休時間を最小化する構造となっています。

技術面では3つの革新が柱です。第一に指数台形離散化により2次精度の近似を実現。第二に複素数値SSMと「RoPEトリック」で、従来不可能だったパリティ判定などの論理推論タスクを解決。第三にMIMO方式により演算強度を最大4倍に引き上げ、メモリ律速の推論フェーズでもGPUの計算コアをフル活用します。

企業にとっての最大の利点は総保有コストの削減です。15億パラメータ規模でベンチマーク平均精度57.6%を達成し、Transformerを2.2ポイント上回りました。状態サイズを半減しながら同等の予測品質を維持するため、同一ハードウェアで推論スループットが実質2倍になります。リアルタイムエージェントや長文コンテキスト処理に特に有効です。

ただし課題も残ります。Transformerエコシステムの成熟度には及ばず、量子化では標準的な4ビット手法で精度が大幅低下する問題があります。またインコンテキスト学習ではAttention機構に劣る面もあり、業界はNvidiaのNemotron-3のようなMambaとAttentionを組み合わせたハイブリッドアーキテクチャへ収束しつつあります。