映画シーン合成のためのオープンビデオ生成器のファインチューニング：LoRAとWan2.1 I2Vを使用した小データパイプライン

Fine-Tuning Open Video Generators for Cinematic Scene Synthesis: A Small-Data Pipeline with LoRA and Wan2.1 I2V

この記事では、映画やテレビ制作のためにオープンソースのビデオ拡散トランスフォーマーを小規模データセットからファインチューニングする実用的なパイプラインを提案しています。このプロセスは二段階に分かれており、第一段階ではLow-Rank Adaptation（LoRA）モジュールを使用して、Ay Yapimの歴史的テレビ映画『El Turco』の短いクリップを用いたコンパクトなデータセットから視覚表現を適応させます。第二段階では、ファインチューニングされたモデルが衣装、照明、色調を保持したスタイリッシュなキーフレームを生成し、それをモデルのビデオデコーダーを通じて一貫した720pシーケンスに拡張します。また、軽量の並列処理およびシーケンス分割戦略を適用し、品質を損なうことなく推論を加速します。測定可能な映画的忠実度と時間的安定性の改善が評価され、再現性と幅広い適応を支援するためにトレーニングと推論パイプラインが公開されています。