本論文では、MCN-CL(Multimodal Cross-Attention Network and Contrastive Learning)という手法を提案し、感情認識の精度向上を目指しています。多モーダル感情認識は、メンタルヘルスのモニタリングや教育的相互作用、人間とコンピュータのインタラクションなど多くの領域で重要です。しかし、従来の方法は、カテゴリーの不均衡、動的な表情行動単位の時系列モデリングの複雑さ、モーダルの異質性による特徴融合の困難さといった課題に直面しています。MCN-CLは、トリプルクエリメカニズムとハードネガティブマイニング戦略を利用し、重要な感情の手がかりを保ちながら特徴の冗長性を排除します。実験結果では、IEMOCAPとMELDデータセットにおいて、提案手法が従来の最先端技術を上回り、Weighted F1スコアがそれぞれ3.42%、5.73%向上したことが示されました。