本論文では、動画の変分オートエンコーダ(VAE)の限界を克服するために、新しいアプローチであるDeCo-VAEを提案しています。従来のVAEはフレーム内容の類似性を無視しており、冗長な潜在表現を生成してしまいます。DeCo-VAEでは、動画のコンテンツをキーフレーム、モーション、残差という異なる要素に明示的に分解し、それぞれに特化した潜在表現を学習します。この際、各要素に専用のエンコーダを設計し、再構成の際には時空間的一貫性を保つための共有3Dデコーダを使用しています。さらに、部分エンコーダを凍結し、他のエンコーダを順次トレーニングすることで、安定したトレーニングを実現し、静的および動的特徴の正確な学習を確保します。実験結果では、DeCo-VAEが優れた動画再構成性能を示すことが確認されました。