arXiv cs.LG

多ストリーム変分オートエンコーダにおけるソースの解離

Disentanglement of Sources in a Multi-Stream Variational Autoencoder

http://arxiv.org/abs/2510.15669v1


この記事では、多ストリーム変分オートエンコーダ(MS-VAE)を用いたソースの解離について探求しています。従来の単一の変分オートエンコーダ(VAE)では連続的な潜在空間における解離表現が求められますが、MS-VAEでは離散的な潜在変数を使用して個々のソースの表現を組み合わせる新しいアプローチを提案しています。これは線形結合モデルに基づいており、特に音響データに適しています。研究では、手書きの数字や話者識別タスクに混合された音響ソースを用いて、異なるストリームにソースを分離する能力を評価しています。その結果、数字の明確な分離や、話者の見逃しが特に少ないことが観察され、監視やトレーニングデータの量に応じて柔軟性が示されています。