暗黙の正則化を通じたオーディオ一貫性オートエンコーダにおける線形性の学習

Learning Linearity in Audio Consistency Autoencoders via Implicit Regularization

この記事では、オーディオオートエンコーダが有用な圧縮音声表現を学習する際、非線形の潜在空間が直感的な代数的操作を妨げる問題に着目しています。著者らは、データ拡張を用いたシンプルなトレーニング手法を提案し、高圧縮の一貫性オートエンコーダ（CAE）内に線形性を誘導することに成功しました。この手法により、スカラーの増加に対して同質性（同変性）が、また加算を保持する加法性がもたらされ、モデルの構造や損失関数を変更せずに実現しています。提案手法で訓練されたCAEは、エンコーダとデコーダの両方で線形的な動作を示しながら再構成の忠実性を維持します。また、音楽のソースコンポジションや分離において、簡単な潜在演算を通じた実用性もテストされています。この研究は、構造化された潜在空間を構築するための明快な技術を提供しており、より直感的で効率的な音声処理を可能にします。