arXiv cs.AI

音声評価モデルにおける声質の変動: 音声基盤モデルの評価次元としての可能性

Lost in Phonation: Voice Quality Variation as an Evaluation Dimension for Speech Foundation Models

http://arxiv.org/abs/2510.25577v1


本論文では、音声基盤モデル (SFM) の発展により、音声信号の生データから直接話される言語を処理する能力について議論しています。特に、感情や社会的意味の理解において重要視される音声の質、すなわち声の発声スタイル(例: クリキー音、ブレス音)に着目しています。従来の評価基準では、多肢選択問題形式に頼っており、パラリンギスティック特徴の影響を正確に捉えることが難しいとされています。本研究では、音声の質に応じた実験を行い、SFMの反応が異なる発声スタイルに対して一貫しているかどうかを評価しました。新たなデータセットを紹介し、声質に対するSFMの感度を初めて検証することで、音声知覚における非言語的要素の重要性を明らかにしています。