本稿では、M3-SLUという新しい多モーダル大規模言語モデル(MLLM)のベンチマークを提案し、多話者・多ターンの音声理解を評価します。最近のモデルは音声とテキストの理解において高い性能を示していますが、自然な会話における「誰が何をいつ言ったのか」を理解する能力、すなわち話者帰属推論には課題が残っています。M3-SLUは、CHiME-6、MELD、MultiDialog、AMIの4つのオープンコーパスを基に構築され、12,000以上のバリデーションされた事例を含み、音声、トランスクリプト、メタデータのペアが提供されています。2つのタスク、すなわち「話者帰属質問応答」と「発話マッチングによる話者帰属」を含み、モデルの性能を評価するためのベースライン結果が示されています。結果は、モデルは発言内容を捉えることができるものの、発言者を特定することには失敗することが多く、話者に敏感な対話理解における重要なギャップを明らかにしています。M3-SLUは、この分野の研究を前進させるための挑戦的なベンチマークを提供します。