生成的ビュー縫合

本論文では、生成的ビュー縫合（GVS）という新しい手法を提案します。従来の自回帰型動画拡散モデルは、歴史に基づいた安定した長期生成が可能ですが、未来からの条件付けによる現在の生成をガイドすることができませんでした。この制約により、カメラ経路が事前に定義されたカメラガイドによる動画生成では、生成されたシーンとの衝突が発生し、自回帰が急速に崩壊します。GVSは、全体のシーケンスを並行してサンプリングすることで、生成されるシーンが事前に定義されたカメラ経路のすべての部分に忠実になることを目指しています。このアルゴリズムは、ロボットプランニングのための拡散縫合手法を動画生成に拡張するものであり、Diffusion Forcingという一般的なシーケンス拡散フレームワークと互換性があります。また、Omni Guidance技術を導入し、過去と未来の両方を考慮することで縫合における時間的一貫性を向上させ、長期的な整合性を実現するループクローズ機構を提供します。結果として、GVSは安定し、衝突のない、フレーム間で一貫したカメラガイド付き動画生成を実現します。