NVIDIA、視覚・音声・言語を統合した軽量マルチモーダルAIモデルを公開

モデルの特徴と性能

視覚・音声・テキストを単一モデルで処理
文書理解など6つのベンチマークで首位
従来比最大9倍のスループット向上

アーキテクチャと技術基盤

Mamba-Transformer-MoEのハイブリッド構成
動的解像度で高精細文書に対応
音声エンコーダによるネイティブ音声入力

活用領域と展開

GUIエージェントや文書分析に対応
オープンウェイトで公開・商用利用可
詳細を読む

NVIDIAは2026年4月28日、マルチモーダルAIモデルNemotron 3 Nano Omniを公開しました。このモデルはテキスト・画像動画音声を単一のアーキテクチャで処理できるオムニモーダルモデルで、AIエージェントの構築を効率化することを目的としています。パラメータ規模は30B(アクティブ3B)で、従来のように複数モデルを組み合わせる必要がなくなります。

性能面では、文書理解のMMLongBench-DocOCRBenchV2、動画理解のWorldSense、音声理解のVoiceBenchなど6つの主要ベンチマークでトップの精度を記録しています。同等の対話性能を持つオープンなオムニモデルと比較して、マルチドキュメント処理で7.4倍、動画処理で9.2倍のシステム効率を実現しました。

アーキテクチャの核となるのは、23層のMamba状態空間モデル、23層のMixture-of-Experts(128エキスパート、Top-6ルーティング)、6層のグループ化クエリアテンションを組み合わせたハイブリッド構成です。視覚側にはC-RADIOv4-Hエンコーダを採用し、動的解像度処理により100ページ超の文書やGUIスクリーンショットにも対応します。音声側にはParakeet-TDT-0.6B-v2エンコーダを搭載し、最大20分の音声入力をネイティブに処理できます。

想定される活用領域は、企業文書の分析、GUI操作を行うコンピュータ使用エージェント、長時間の動画音声理解、自動音声認識、そして汎用的なマルチモーダル推論の5分野です。すでにH Company、Aible、Eka Care、Foxconnなどが採用を進めており、Dell Technologies、Oracle、Infosysなども評価段階にあります。

モデルはオープンウェイトで公開されており、BF16・FP8・NVFP4の各チェックポイントがHugging Faceからダウンロード可能です。訓練データや手法も公開されているため、NVIDIA NeMoを使った独自のカスタマイズが可能です。NVIDIA Jetsonのようなエッジデバイスからデータセンタークラウドまで幅広い環境にデプロイでき、Nemotronファミリー全体では過去1年で5,000万回以上のダウンロードを達成しています。