MTR-DuplexBench: フルデュプレックス音声モデルのための複数回会話の包括的評価への道

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

MTR-DuplexBenchは、フルデュプレックス音声言語モデル（FD-SLM）の多回会話を評価するための新しいベンチマークです。従来の評価基準は単回あたりのやり取りに集中しており、複数回の会話が持つ複雑性や、指示のフォローや安全性といった重要な機能を無視しています。FD-SLMを多回会話の場面で評価することは難しく、コミュニケーションのターン境界がぼやけたり、文脈の不整合が生じたりする問題があります。本研究では、連続したフルデュプレックス対話を個別のターンに分割し、対話の質、会話のダイナミクス、指示のフォロー、安全性などを包括的に評価できるようにしました。実験結果は、現在のFD-SLMが多回のやり取りや評価面で一貫したパフォーマンスを維持するのに苦労していることを示しており、新しいベンチマークの必要性と有効性を強調しています。このベンチマークとコードは今後公開される予定です。