本論文では、ビデオモデルの推論能力を評価するためのVR-Benchというベンチマークを紹介しています。特に迷路解決タスクに焦点を当て、7200本の手続き生成されたビデオを使用して空間計画と多段階の推論を必要とする能力を測定します。実験結果は、ビデオモデルが優れた空間認識を示し、先導的なVLMよりもパフォーマンスが高いこと、推論の信頼性も向上させることが明らかになっています。具体的には、推論中の多様なサンプリングが10~20%の信頼性向上をもたらすことを発見しました。この研究は、空間推論タスクにおけるビデオ中心の推論の可能性を強調しています。