動画による暴力検出のための連合学習：エネルギー効率的な使用のための軽量CNNと視覚言語モデルの補完的役割

Federated Learning for Video Violence Detection: Complementary Roles of Lightweight CNNs and Vision-Language Models for Energy-Efficient Use

深層学習に基づく動画監視は、プライバシーを保護しつつ低い計算および環境負荷を求める傾向が強まっています。本研究では、連合学習を用いた暴力検出のための三つの戦略を比較しています。それは、事前学習された視覚言語モデル（VLMs）を用いたゼロショット推論、LLaVA-NeXT-Video-7BのLoRAに基づく微調整、65.8Mパラメータの3D CNNの個別連合学習です。全ての手法はバイナリ暴力検出で90%を超える精度を達成しました。特に、3D CNNはほぼ半分のエネルギーコストで優れたキャリブレーション（ROC AUC 92.59%）を実現しました。一方で、VLMsはより豊かなマルチモーダル推論を提供します。階層的カテゴリグルーピングによりVLMのマルチクラス精度が向上し、初めてLoRA調整されたVLMsと個別CNNの比較統計を行いました。この結果は、ルーチン推論には効率的なCNNを、複雑な文脈推論にはVLMを選択的に使用するためのハイブリッド展開戦略に寄与します。