arXiv cs.AI

歴史的映像におけるカメラ動作の分類: 深層ビデオモデルの比較研究

Camera Movement Classification in Historical Footage: A Comparative Study of Deep Video Models

http://arxiv.org/abs/2510.14713v1


本研究では、歴史的映像におけるカメラの動作を分類するための深層ビデオモデルを初めて系統的に評価しています。最近のカメラ動作分類(CMC)手法は現代データセットでは良好な結果を示していますが、歴史的映像への適用は未探索でした。この記事では、代表的な手法やデータセットをまとめ、モデル設計やラベル定義の違いを強調しています。第二次世界大戦の専門家注釈付き映像を含むHISTORIANデータセットにおいて、5つの標準ビデオ分類モデルを評価し、最も性能が良かったモデルであるVideo Swin Transformerは80.25%の精度を達成しました。この結果は限られたトレーニングデータにもかかわらず、強い収束を示しています。研究成果は、低品質のビデオへの既存モデルの適応の課題と可能性を浮き彫りにし、多様な入力モダリティと時間的アーキテクチャの融合による今後の研究の動機を提供しています。