本研究では、ノイズを加えた入力から元の情報を再構築するオートエンコーダーの訓練方法を提案し、知覚的損失と組み合わせることで知覚階層に基づいたエンコーディングを実現することができると論じています。従来の訓練方法と比較して、音声オートエンコーダーをこの方法で訓練することで、知覚的に重要な情報がより粗い表現構造に捕捉されることが示されました。また、このような知覚的階層は音楽のピッチにおける驚きの予測や音楽視聴時の脳波反応の推定において、潜在的拡散デコーディングの精度を向上させることも明らかにしています。この研究の結果は、AIと音楽の関連分野でのさらなる応用に寄与することが期待されています。