arXiv cs.AI

品質管理されたマルチモーダル感情認識におけるアイデンティティベースの転移学習とMAMBAフュージョン

Quality-Controlled Multimodal Emotion Recognition in Conversations with Identity-Based Transfer Learning and MAMBA Fusion

http://arxiv.org/abs/2511.14969v1


本論文では、会話におけるマルチモーダル感情認識(MERC)のデータ品質の問題に対処するため、体系的な品質管理と多段階の転移学習を行いました。具体的には、MELDとIEMOCAPデータセットのための品質管理パイプラインを実装し、話者のアイデンティティ、音声とテキストの整合性、顔の検出を検証しています。また、話者や顔の認識からの転移学習を活用し、アイデンティティによって識別されるエンコーディングが、安定した音響および顔の特徴だけでなく、感情表現のパターンも捉えると仮定しています。そして、MAMBAに基づく三重モーダルフュージョンを使用し、MELDで64.8%、IEMOCAPで74.3%の精度を達成しました。この成果は、品質管理されたデータサブセット上でのアイデンティティに基づく音声および視覚的エンコーディングと感情調整されたテキスト表現の組み合わせが、会話における信頼性の高いマルチモーダル感情認識を実現する基礎を提供することを示しています。