暴力検出のための省エネ連合学習：LoRA調整済みVLMと個別CNNの比較

Frugal Federated Learning for Violence Detection: A Comparison of LoRA-Tuned VLMs and Personalized CNNs

本研究では、暴力検出のための省エネ連合学習手法を検討し、視覚-言語モデル（VLM）を用いたゼロショットおよび連合ファインチューニングと、コンパクトな3D畳み込みニューラルネットワーク（CNN3D）の個別トレーニングの2つの戦略を比較しています。具体的には、LLaVA-7Bと65.8MパラメータのCNN3Dを用いて、リアルな非IID環境での精度やエネルギー使用量を評価しました。結果、両者とも90%以上の精度を達成し、CNN3DがROC AUCとログロスにおいてLoRA調整済みVLMをわずかに上回り、エネルギー消費も少ないことが示されました。VLMは文脈的推論やマルチモーダル推論に適しており、エネルギー効率や環境指標に重点を置いた最初の比較研究であることも本研究の特徴です。この結果は、日常分類には軽量なCNNを、複雑なシナリオには選択的にVLMを使用するハイブリッドモデルを支持します。