この記事では、PitchFlowerという新しいフロー型神経音声コーデックを紹介しています。このコーデックは、明示的なピッチ制御を可能にし、トレーニング中にF0(基本周波数)を平坦化しランダムにシフトさせることで、属性の分離を実現します。また、ピッチ回復を妨げるベクター量子化ボトルネックを導入し、高品質な音声を生成するためのフローベースデコーダーを使用しています。実験結果によれば、PitchFlowerは従来のWORLDよりも正確なピッチ制御を提供し、SiFiGANと比較しても制御性で優れています。さらに、このフレームワークは他の音声属性の分離へのシンプルで拡張可能なアプローチを提供します。