本記事では、「STANCE」と呼ばれる画像からビデオへのフレームワークを提案しています。従来のビデオ生成技術は、オブジェクトの動きや相互作用の一貫性を維持するのが難しいという課題があります。著者らはその要因として、(i)人間が提供する動きのヒントがエンコーディング後に効果的なトークンに崩れてしまうこと、(ii)外見と動きを同時に最適化する際に、テクスチャが時間的一貫性に優先されることを挙げています。STANCEは、インスタンスキューという制御信号を導入し、ユーザーが編集可能なスパース情報を密な2.5Dモーションフィールドに変換することで深度の曖昧さを軽減します。また、Dense RoPEを用いてトークン空間内でこれらのキューを保持し、RGBと補助マップの共同予測を可能にします。これにより、構造を安定させ、時間的一貫性を改善することができます。