近年、画像、動画、3Dオブジェクトなどの視覚コンテンツ生成における大規模生成モデルが目覚ましい進展を遂げています。しかし、大規模ビデオ生成モデルのトレーニングは、クロスモーダルなテキストと動画の整合性、大規模なシーケンス、複雑な時空間依存性のために特に困難で、リソースを多く必要とします。これに対処するために、本論文ではデータ処理、モデルアーキテクチャ、トレーニング戦略、インフラストラクチャの4つの柱を最適化するトレーニングフレームワークを提案しています。これにより効率と性能の大幅な向上が実現され、最終的なモデルMUG-V 10Bは、最新のビデオ生成モデルと同等のパフォーマンスを示し、特にeコマース向けのビデオ生成タスクでは、オープンソースのベースラインを超える結果を得ています。さらに、モデルの重みや大規模トレーニングコードを開放しており、Megatron-Coreを利用した高効率なトレーニングが可能です。