本論文では、単眼ビデオから4Dを回復するためのC4Dフレームワークを提案しています。この方法は、動的ジオメトリとカメラポーズを同時に推定することを目的としています。従来の3D再構築手法は静的シーンにおいては有効ですが、動的シーンではマルチビュー幾何学的制約が乱れるため、直接適用すると精度が低下します。C4Dは短期的な光流と長期的なポイントトラッキングという2種類の対応関係を利用し、動的な状況での点マップを生成します。これにより、動きのある要素と静的背景を分離し、より信頼性の高い指針を提供します。また、動的シーンの最適化目標を設定することで、各フレームごとに3Dジオメトリやカメラパラメータを回復しています。実験の結果、このフレームワークは完全な4D回復を達成し、深度推定やカメラポーズ推定、ポイントトラッキングなどの複数の下流タスクにおいて強力な性能を示しました。