NVIDIA、40億パラメータの軽量AI「Nemotron 3 Nano 4B」公開
圧縮と学習手法
9BモデルからNemotron Elasticで圧縮
2段階蒸留で精度回復を実現
3段階強化学習でツール使用を強化
FP8・Q4_K_M量子化で効率向上
出典:Hugging Face
詳細を読む
NVIDIAは2026年3月17日、40億パラメータの軽量言語モデル「Nemotron 3 Nano 4B」をオープンソースで公開しました。Mamba-Transformer混合アーキテクチャを採用し、エッジデバイスでの高効率な推論を実現するモデルです。
同モデルはJetson ThorやJetson Orin Nano、DGX Spark、RTX GPUなど幅広いNVIDIAプラットフォームで動作します。低VRAM環境でも高速な応答が可能で、データプライバシーの確保と柔軟なデプロイを両立しています。
開発にはNemotron Elasticフレームワークが用いられ、9Bパラメータの親モデルから構造化プルーニングと知識蒸留により4Bモデルへ圧縮されました。ルーターが自動的に最適な枝刈り構成を決定し、従来手法より低コストで高精度なモデルを実現しています。
学習では教師あり微調整に続き、指示追従とツール呼び出しに特化した3段階の強化学習パイプラインを適用しました。推論時の思考なしでもタスク解決に優れ、ハルシネーション回避性能も高い水準を達成しています。
量子化ではFP8版で最大1.8倍のレイテンシ改善を達成し、Q4_K_M GGUF版はJetson Orin Nano 8GBで毎秒18トークンを出力します。Transformers、vLLM、TRT-LLM、Llama.cppなど主要推論エンジンに対応し、Hugging Faceで公開中です。