MERaLiON-SERは、英語と東南アジアの言語に特化した堅牢な音声感情認識モデルです。このモデルは、重み付きカテゴリ交差エントロピーと一致相関係数(CCC)の損失を組み合わせたハイブリッド目的関数でトレーニングされており、離散的および次元的な感情モデリングの双方を実現しています。これにより、喜びや怒りといった明確な感情カテゴリーを捉えるだけでなく、興奮度や価値、支配感といったより微細な感情も分析できます。シンガポールの多言語(英語、中国語、マレー語、タミール語)と他の公開ベンチマークにおける広範な評価により、MERaLiON-SERはオープンソースの音声エンコーダや大規模なAudio-LLMを一貫して上回っています。これは、正確なパラ言語理解とクロスリンガルな一般化のために専門的な音声モデルの重要性を示しています。また、このフレームワークは、感情を考慮した認識を将来のエージェントオーディオシステムに統合する基盤を提供し、より共感的で文脈適応的なマルチモーダル推論を可能にします。