この記事では、映画やテレビ制作のためにオープンソースのビデオ拡散トランスフォーマーを小規模データセットからファインチューニングする実用的なパイプラインを提案しています。このプロセスは二段階に分かれており、第一段階ではLow-Rank Adaptation(LoRA)モジュールを使用して、Ay Yapimの歴史的テレビ映画『El Turco』の短いクリップを用いたコンパクトなデータセットから視覚表現を適応させます。第二段階では、ファインチューニングされたモデルが衣装、照明、色調を保持したスタイリッシュなキーフレームを生成し、それをモデルのビデオデコーダーを通じて一貫した720pシーケンスに拡張します。また、軽量の並列処理およびシーケンス分割戦略を適用し、品質を損なうことなく推論を加速します。測定可能な映画的忠実度と時間的安定性の改善が評価され、再現性と幅広い適応を支援するためにトレーニングと推論パイプラインが公開されています。