arXiv cs.AI

MuSaG: 完全モーダル注釈付きマルチモーダルドイツ語皮肉データセット

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

http://arxiv.org/abs/2510.24178v1


MuSaGは、ドイツ語のマルチモーダル皮肉検出のための初のデータセットで、ドイツのテレビ番組から手動で選定された33分の発言が収められています。このデータセットは、テキスト、音声、ビデオの各モダリティが人間によって個別に注釈付けされており、ユニモーダルとマルチモーダルの状況での評価を可能にします。皮肉は言語理解や感情分析、コンテンツモデレーションにおいて重要な課題であり、特に音声や視覚の手がかりを統合する必要があります。研究では9つのオープンソースおよび商用モデルの性能を評価し、モデルがテキストには強い一方で、会話文脈では人間が音声に頼る傾向があることを示しました。MuSaGはマルチモーダル皮肉検出の研究を支援するために公開されました。