テキストガイド付き弱監視フレームワークによる動的顔表情認識

Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition

動的顔表情認識（DFER）は、動画シーケンスにおける顔の動きの時間的変化をモデル化して感情状態を特定することを目指します。この分野の主要な課題は、多数のフレームから構成される動画に単一の感情ラベルを付ける「多対一ラベル付け問題」です。著者らは、テキストによるガイドを取り入れた弱監視フレームワークTG-DFERを提案し、セマンティックガイダンスと一貫性のある時間的モデリングを通じてMIL（Multiple Instance Learning）ベースのアプローチを強化しています。この手法では、精細な感情の文脈を表すテキストの記述を用いて、視覚的特徴と感情ラベルを関連付ける視覚プロンプトを導入。また、多グレイン時間ネットワークを設計し、短期的な顔の動きと長期的な感情の流れを共同で捉え、一貫した感情理解を実現します。実験結果では、TG-DFERが弱監視の下でも一般化能力、解釈可能性、時間的感受性の向上を示しています。