arXiv cs.LG

ピクセル空間時空間トランスフォーマーによる動的物理シミュレーションのビデオ予測

Video Prediction of Dynamic Physical Simulations With Pixel-Space Spatiotemporal Transformers

http://arxiv.org/abs/2510.20807v1


本研究は、トランスフォーマーモデルを用いた動的物理シミュレーションのビデオ予測を探求しています。従来のビデオ生成手法に見られる因果モデルの不足を克服するため、物理シミュレーションデータセットを使って、物体追跡メトリクスを通じて時空間的推論を分離することを目的としています。複雑なトレーニング戦略を必要とせず、ピクセル空間表現のみを使用するシンプルなトランスフォーマーモデルを提案し、これにより予測の時間的ホライズンを最大50%延長できることを示しました。また、ネットワークの解釈可能性実験を行い、物理シミュレーションパラメータの正確な推定に役立つ情報をエンコードするネットワーク領域を特定しました。この研究は、さらなる時空間モデリングの基盤となるものです。