NVIDIA「Nemotron 3 Nano 4B」発表!エッジAIを革新する超小型ハイブリッド言語モデル

-

NVIDIAは、エッジデバイスにおけるAIの可能性を大きく広げる新たな小型言語モデル「Nemotron 3 Nano 4B」を発表しました。このモデルは、Nemotron 3ファミリーの最新かつ最もコンパクトなメンバーとして、ハイブリッドMamba-Transformerアーキテクチャを採用し、効率性と精度を両立させています。わずか40億のパラメータ数でありながら、最先端の命令追従能力と優れたツール利用能力を備え、VRAMフットプリントを最小限に抑えることで、軽量な小型言語モデルの新たな基準を打ち立てています。

「Nemotron 3 Nano 4B」は、NVIDIA Jetsonプラットフォーム(Jetson Thor/Jetson Orin Nano)やNVIDIA DGX Spark、NVIDIA RTX GPUといったNVIDIA GPU対応プラットフォーム上で動作可能です。これにより、応答時間の高速化、データプライバシーの強化、柔軟なデプロイメント、そして推論コストの低減が実現され、ローカル環境での会話エージェントやパーソナの実現を強力に後押しします。本記事では、この革新的なモデルの技術的詳細と、それがエッジAIにもたらす影響について深掘りします。

「Nemotron 3 Nano 4B」とは? エッジAIに特化した設計

「Nemotron 3 Nano 4B」は、エッジデバイスでの利用に特化して最適化されたNVIDIA初のモデルです。その設計思想は、生産環境におけるエッジAIの主要な側面において、最先端の精度と効率性を達成することにあります。

Nemotron 3 Nano 4Bのアーキテクチャと特徴を示す図

具体的には、以下の点でそのサイズクラスにおいて最先端の性能を発揮すると報じられています。

  • 命令追従(IFBench, IFEval): そのサイズクラスで最先端の性能。
  • ゲームエージェンシー/インテリジェンス(Orak): Super Mario、Darkest Dungeon、Stardew Valleyといった戦術ゲームでの評価で最先端の性能。
  • VRAM効率(ピークメモリ使用量): 低および高ISL/OSL設定の両方で、そのサイズクラスにおいて最小のVRAMフットプリント。
  • レイテンシ: 高ISL設定下で、そのサイズクラスにおいて最小のTTFT(Time To First Token)。

さらに、優れたツール利用性能と幻覚(ハルシネーション)回避能力も兼ね備えており、エッジでの多様なユースケースに非常に適していることが示されています。このモデルは、Nemotron Nano 9B v2からNemotron Elasticフレームワークを用いてプルーニングおよび蒸留されており、ハイブリッド推論モデルとしての強力な推論能力を継承しています。また、Nemotron 3 Post-training dataから派生した新しいレシピで後学習されており、明示的な思考なしでもタスク解決に優れるとされています。オープンソースモデルとして提供されるため、エコシステム全体がドメイン固有のユースケースに合わせてカスタマイズ、ファインチューニング、最適化できる点も大きな強みです。

9Bモデルから4Bへ:Nemotron Elasticによる革新的な圧縮技術

「Nemotron 3 Nano 4B」の実現には、NVIDIA独自の「Nemotron Elastic」技術が不可欠でした。このフレームワークは、既存のLLM圧縮技術のように4Bモデルをゼロからトレーニングしたり、プルーニング、候補探索、蒸留といった個別のステージを実行したりするのではなく、ルーターによってガイドされる構造化プルーニングを使用します。このルーターは、補助損失(学生モデルのサイズと元の知識蒸留損失を考慮)を用いてモデルと共同でトレーニングされます。

Nemotron Elasticは、知識蒸留と並行して複数の圧縮軸にわたるニューラルアーキテクチャ探索を実行するエンドツーエンドのトレーニング済みルーターを導入しています。Nano 4Bの場合、このフレームワークは単一予算構成(4Bパラメータ数のみをターゲット)で使用され、ルーターの役割は、ターゲット予算に到達するためにどの軸をどれだけプルーニングするかを決定することでした。ルーターには以下の4つのプルーニング軸が与えられました。

  • Mambaヘッド: SSMヘッドの数を削減。
  • 隠れ次元(埋め込み次元): モデル全体の表現幅を縮小。
  • FFNチャネル: MLP層の中間ニューロンをプルーニング。
  • 深さ(層): ネットワークから層全体を削除。

これらの軸に対して、活性化ベースの重要度スコアやMSEベースの層重要度ランキングといった事前知識がルーターに提供され、最適な圧縮が図られました。その結果、Nemotron Nano 9B v2からNemotron 3 Nano 4Bへのプルーニング決定は以下の通りです。

Nemotron Nano 9B v2 (親モデル)Nemotron 3 Nano 4B
深さ56層 (Mamba 27, Attention 4, MLP 25)42層 (Mamba 21, Attention 4, MLP 17)
Mambaヘッド12896
FFN中間次元1568012544
埋め込み次元44803136

プルーニングされたアーキテクチャが決定された後、圧縮されたモデルは、凍結された9B親モデルからの知識蒸留を用いて、Nano v2の事前学習および後学習データで再トレーニングされます。この精度回復プロセスは2段階で実行されます。

  1. ステージ1 — 短コンテキスト蒸留(8Kシーケンス長): 4Bモデルは、親Nano v2レシピからの約70%の後学習データと30%の事前学習データからなるデータブレンドを使用して、8Kコンテキストウィンドウで630億トークンをトレーニングされます。これは、圧縮後のモデル精度の初期回復に不可欠です。
  2. ステージ2 — 長コンテキスト拡張(49Kシーケンス長): より長い推論チェーンを必要とする困難なタスクでの性能を回復するために、コンテキストは49Kトークンに拡張されます。このステージでは、モデルは1500億トークンをトレーニングされます。

精度と効率を両立:SFTとマルチ環境RL、そして量子化

「Nemotron 3 Nano 4B」は、単にモデルサイズを縮小するだけでなく、その精度と効率性を最大限に引き出すための複数の高度なトレーニング手法が適用されています。

教師ありファインチューニング(SFT)

モデルは、Nemotron-Post-Training-v3コレクションからの関連するサブセットを使用して、2段階のSFT(Supervised Fine-Tuning)を受けました。最初のSFTステージでは、数学、コーディング、科学、チャット、命令追従、エージェントタスクなど、多様なドメインにわたる推論データと非推論データの混合でモデルをトレーニングします。2番目のステージは、安全行動を強化するための小規模で集中的なトレーニングです。

マルチ環境強化学習(RL)

SFTでモデルがブートストラップされた後、NVIDIAはNeMo-RLを使用した3段階のRL(Reinforcement Learning)パイプラインに切り替え、命令追従とツール呼び出し/エージェント的振る舞いという焦点領域をターゲットにしました。最初のステージでは、シングルターンの命令追従データを使用します。2番目のステージでは、シングルターンおよびマルチターンの命令追従、ならびに構造化出力(JSON、XML)のためにNeMo-Gym環境を使用します。最後に、3番目のステージでは、マルチターン会話型ツール呼び出しのためにNemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1の予備バージョンを使用します。3つのRLVRステージ全体で、推論データと非推論データのバランスの取れた50-50の比率が使用され、KLペナルティは各ステージで段階的に増加されました。

効率を最大化する量子化技術

エッジデバイスでは、効率を向上させ、VRAM使用量を削減するために、量子化を通じてモデルサイズをさらに削減することが不可欠です。「Nemotron 3 Nano 4B」は、エッジデバイスで効率的に動作するようにFP8およびQ4_K_M GGUF形式でリリースされています。

Nemotron 3 Nano 4Bの量子化によるパフォーマンス向上を示すグラフ

FP8モデルの場合、ModelOptライブラリを使用してPTQ(Post-Training Quantization)が適用されました。PTQキャリブレーションデータセットには、後学習SFTデータセットから1Kサンプルの小さなサブセットが使用され、量子化による精度損失を最小限に抑えるために活性化統計が推定されました。精度を維持しつつ効率を向上させるため、ネットワーク全体を量子化するのではなく、選択的な量子化戦略も適用されています。自己注意層(42層中4層)と自己注意層に先行する4つのMamba層をBF16に保つことで、精度回復と効率向上トレードオフのスイートスポットが提供されました。モデルの重み、活性化、KVキャッシュはFP8に量子化され、すべてのMamba層内のConv1DはBF16に保たれています。FP8モデルは、BF16モデルと比較して、ターゲットベンチマーク全体で100%の中央値精度回復を達成しました。FP8量子化バージョンは、DGX SparkおよびJetson Thor上で元のBF16バージョンと比較して、レイテンシとスループットが最大1.8倍向上しています。

Llama.cppのサポートには、広く採用されているGGUF量子化手法Q4_K_Mが使用されています。これは、効率性と精度の優れたバランスを提供する4ビットスキームです。Q4_K_M GGUFバージョンも、BF16モデルと比較して、ターゲットベンチマーク全体で100%の中央値精度回復を達成しました。このGGUFリリースはJetsonデプロイメントにも適しており、小型組み込みデバイス向けに設計されたJetson Orin Nano 8GB上でLlama.cppで実行すると、18トークン/秒を達成し、Nemotron Nano 9B v2と比較して最大2倍高いスループットを示しています。これは、組み込みAIおよびロボティクスユースケースにおけるエッジ推論のための「Nemotron 3 Nano 4B」の効率性を強調するものです。

「Nemotron 3 Nano 4B」がもたらすユーザー体験の変革

「Nemotron 3 Nano 4B」の登場は、エッジAIの分野に多大な影響を与え、ユーザー体験を大きく変革する可能性を秘めています。このモデルがもたらす主なメリットと、想定される課題、そして誰に特におすすめできるのかを考察します。

メリット:高速応答、プライバシー、オフライン利用、コスト削減

  • 高速応答とリアルタイム性: エッジデバイス上でAI推論が完結するため、クラウドへのデータ送信や処理待ちが不要となり、ミリ秒単位での高速応答が可能です。これは、自動運転、ロボティクス、スマートアシスタントなど、リアルタイム性が求められるアプリケーションにとって極めて重要です。
  • プライバシー強化: ユーザーデータがデバイス内で処理されるため、機密性の高い情報が外部サーバーに送信されるリスクが低減されます。これにより、個人情報保護への懸念が和らぎ、より安心してAIサービスを利用できるようになります。
  • オフライン利用の拡大: ネットワーク接続が不安定な環境や、全く利用できない環境でもAI機能が動作します。これにより、災害時や僻地での利用、あるいは航空機内など、これまでAIの恩恵を受けにくかった場面での活用が期待されます。
  • 運用コストの削減: クラウドベースのAIサービスに比べて、推論にかかるクラウド利用料を大幅に削減できます。特に大規模なデプロイメントや高頻度な利用が想定される場合、長期的なコストメリットは非常に大きいです。
  • 高いカスタマイズ性: オープンソースモデルとして提供されるため、開発者は特定のドメインやユースケースに合わせてモデルを自由にファインチューニングし、最適化できます。これにより、汎用モデルでは実現が難しかったニッチなニーズにも対応できるようになります。

課題と今後の展望

一方で、課題としては、エッジデバイスのハードウェア要件が挙げられます。NVIDIA JetsonやRTX GPUといった特定のNVIDIA製ハードウェアが必要となるため、既存の非対応デバイスでの利用には限界があります。また、40億パラメータというサイズは小型であるものの、より大規模なクラウドベースのモデルと比較した場合、汎用的な知識や複雑な推論能力には一定の差がある可能性も考慮する必要があります。

しかし、これらの課題を上回るメリットが「Nemotron 3 Nano 4B」には存在します。エッジAIの進化は、私たちの日常生活に密接に関わるデバイスのインテリジェンスを飛躍的に向上させ、よりスマートで安全な社会の実現に貢献するでしょう。

こんな人におすすめ

エッジデバイスでのAI活用を検討している開発者や企業、またはローカル環境でのAIアシスタントやゲームAIの実装に興味がある方々にとって、「Nemotron 3 Nano 4B」は強力な選択肢となるでしょう。特に、組み込みAI開発者、ロボティクス分野の研究者、スマートホームデバイスやIoT機器のメーカー、そしてデータプライバシーを重視するアプリケーション開発者には、その恩恵が大きいと予想されます。

まとめ

NVIDIAが発表した「Nemotron 3 Nano 4B」は、ハイブリッドMamba-TransformerアーキテクチャとNemotron Elasticフレームワークによる革新的な圧縮技術を組み合わせることで、エッジAIの新たな標準を確立するモデルです。わずか40億パラメータでありながら、最先端の命令追従、ツール利用、VRAM効率、低遅延を実現し、JetsonやRTX GPUといったNVIDIAプラットフォーム上でローカルAIの可能性を大きく広げます。オープンソースとして提供されることで、多様なユースケースでのカスタマイズと最適化が促進され、組み込みAI、ロボティクス、ローカル会話エージェントなど、多岐にわたる分野での応用が期待されます。このモデルは、高速応答、プライバシー保護、オフライン利用、コスト削減といったメリットを通じて、私たちのデジタル体験をより豊かに、そしてインテリジェントに変革していくことでしょう。

情報元:huggingface.co

合わせて読みたい  Nvidia、インドAIスタートアップエコシステムへの早期投資を加速!世界市場を牽引する新戦略

カテゴリー

Related Stories