arXiv cs.LG

音声強調のための象徴的逐次モデルの統合

Incorporating Symbolic Sequential Modeling for Speech Enhancement

http://arxiv.org/abs/1904.13142v3


この記事では、騒音環境における音声信号の強調手法として、象徴的逐次モデルを統合した新たなフレームワークを提案しています。人間は言語モデルを持っているため、損失のある音声信号を自動的に復元することが可能です。本研究では、従来の音響信号のノイズとクリーン信号のマッピング学習に加え、抽象的な象徴的逐次モデルを導入しています。このモデルは音響的なノイズとクリーン音声のマッピング機能を学習する際の「言語的制約」として機能します。また、音響信号に対する象徴的なシーケンスは、ベクトル量子化変分オートエンコーダアルゴリズムにより得られ、高度な音素的内容を捉えることができます。実験結果から、このフレームワークはTIMITデータセットにおいて音声品質の知覚評価(PESQ)と短時間目的可懂性(STOI)の改善を示しました。