この記事では、マルチモーダル大規模言語モデル(MLLM)の最近の進展が、より緻密で感情的に賢い人間とコンピュータの相互作用を可能にすることについて述べています。感情理解は、ユーザーの意図を把握するための微妙な手がかりを捉える上で不可欠です。また、予測された感情に対する忠実な説明を提供することも、解釈可能性を確保し、ユーザーの信頼を築くために重要です。しかし、現行のMLLMベースの手法は、時にターゲットラベルと乖離した説明を生成し、自己の予測感情と矛盾することもあります。このような不整合は、誤解を招くリスクを提出し、インタラクティブな設定における信頼性を損ないます。これに対処するため、著者たちは「感情合理性検証器(ERV)」と「説明報酬」という新たな手法を提案します。この方法は、モデルアーキテクチャを変更することなく、多モーダル感情認識においてターゲット感情と明示的に一致した推論を生成するようモデルを導きます。実験を通じて、本手法は説明と予測の整合性を向上させ、信頼できる感情的インタラクションを実現することが示されました。