ユニバーサルサウンド分離

「ユニバーサルサウンド分離」は、様々な種類の音を含む混合音声の分離に関する研究を扱っています。これまでの深層学習技術は、音声の強調や分離において顕著な成功を収めてきましたが、音声以外の音の分離についてはあまり探求されていません。この研究では、任意の音を含む混合音声のデータセットを開発し、マスクベースの分離アーキテクチャの可能性を探ります。具体的には、畳み込み型長短期記憶ネットワークや、最新の時間領域強化ネットワークに発想を得た新しいアーキテクチャが使われています。短時間フーリエ変換（STFT）や学習可能な基盤を利用し、ウィンドウサイズの影響を調査します。特に、音声・非音声分離には長いウィンドウ（25-50ms）が有効で、任意の音に対しては短いウィンドウ（2.5ms）が効果的であることが分かりました。最終的に、STFTが学習可能な基盤よりも優れた結果を出し、音声/非音声分離では13dB、ユニバーサルサウンド分離では約10dBの信号対歪み比の改善が得られました。