arXiv cs.LG

PitchFlower: ピッチ制御可能なフロー型神経音声コーデック

PitchFlower: A flow-based neural audio codec with pitch controllability

http://arxiv.org/abs/2510.25566v1


この記事では、PitchFlowerという新しいフロー型神経音声コーデックを紹介しています。このコーデックは、明示的なピッチ制御を可能にし、トレーニング中にF0(基本周波数)を平坦化しランダムにシフトさせることで、属性の分離を実現します。また、ピッチ回復を妨げるベクター量子化ボトルネックを導入し、高品質な音声を生成するためのフローベースデコーダーを使用しています。実験結果によれば、PitchFlowerは従来のWORLDよりも正確なピッチ制御を提供し、SiFiGANと比較しても制御性で優れています。さらに、このフレームワークは他の音声属性の分離へのシンプルで拡張可能なアプローチを提供します。