arXiv cs.AI

DGME-T: トランスフォーマーを用いた歴史的カメラ動作分類のための方向性グリッド運動符号化

DGME-T: Directional Grid Motion Encoding for Transformer-Based Historical Camera Movement Classification

http://arxiv.org/abs/2510.15725v1


本記事では、DGME-Tという新たな手法を提案し、トランスフォーマーを用いた歴史的カメラ動作分類の精度向上を目指しています。現代の高品質な映像で訓練されたカメラ動作分類モデルは、アーカイブフィルムに適用すると劣化する問題に対処します。このため、4つの標準的なクラスにまとめたベンチマークを構築し、HISTORIANコレクションを5つのバランスの取れたカテゴリに再構成しました。DGME-Tは、光フローに基づく方向性グリッド運動符号化を導入し、軽量のVideo Swin Transformerを拡張しています。この手法により、現代クリップのトップ-1精度は81.78%から86.14%に向上し、第二次世界大戦の映像でも精度が改善されました。結果として、構造化された運動のプライオリティとトランスフォーマーの表現が相補的であることが示され、劣化したフィルム解析においても大きな強化が見られました。