多ストリーム変分オートエンコーダにおけるソースの解離

この記事では、多ストリーム変分オートエンコーダ（MS-VAE）を用いたソースの解離について探求しています。従来の単一の変分オートエンコーダ（VAE）では連続的な潜在空間における解離表現が求められますが、MS-VAEでは離散的な潜在変数を使用して個々のソースの表現を組み合わせる新しいアプローチを提案しています。これは線形結合モデルに基づいており、特に音響データに適しています。研究では、手書きの数字や話者識別タスクに混合された音響ソースを用いて、異なるストリームにソースを分離する能力を評価しています。その結果、数字の明確な分離や、話者の見逃しが特に少ないことが観察され、監視やトレーニングデータの量に応じて柔軟性が示されています。