arXiv cs.AI

NVIDIA Nemotron Nano V2 VL

NVIDIA Nemotron Nano V2 VL

http://arxiv.org/abs/2511.03929v1


NVIDIAが発表したNemotron Nano V2 VLは、視覚と言語に基づいたドキュメント理解や長期間のビデオ理解、推論タスクに特化した最新モデルです。このモデルは、前モデルであるLlama-3.1-Nemotron-Nano-VL-8Bに対し、アーキテクチャやデータセット、トレーニング手法の大幅な改善により、全ての視覚およびテキストドメインで重要な向上が見られます。Nemotron Nano V2 VLはハイブリッドMamba-Transformer LLMを基にしており、長文やビデオのシナリオにおいて高い推論スループットを実現するための革新的なトークン削減技術を用いています。また、BF16、FP8、FP4フォーマットのモデルチェックポイントを公開し、データセットやトレーニングコードの一部も共有しています。これにより、機械学習と人工知能の多様な研究に貢献することを目指しています。