本論文では、CCTV映像におけるリアルタイム暴力検出のための短時間スライディング学習フレームワークが提案されています。従来の長時間ビデオトレーニング手法とは異なり、提案された方法は1~2秒のクリップにビデオを分割し、Large Language Model(LLM)に基づく自動キャプションラベリングを活用して、詳細なデータセットを構築します。この短いクリップはすべてのフレームを有効に利用し、時間的連続性を保持することで、迅速な暴力事件の正確な認識を可能にします。実験では、提案手法がRWF-2000で95.25%の精度を達成し、長いビデオ(UCF-Crimeで83.25%)に対する性能が大幅に向上し、インテリジェント監視システムにおける強い一般化能力とリアルタイム適用性が確認されました。