オンライン生成音声強調のための拡散バッファ

本稿では、オンライン生成音声強調において、従来の予測モデルに代わる新しいアプローチである「拡散バッファ」を提案しています。従来の生成型音声強調モデルは、データストリームからの入力信号フレームごとに複数回のニューラルネットワーク呼び出しを必要とし、計算の複雑さが問題とされていました。拡散バッファは、物理時間と拡散時間ステップを調整し、過去のフレームからノイズを段階的に除去することで、1回の呼び出しでオンライン処理を実現します。このモデルは、特にアルゴリズムの待機時間が短い場合に性能が向上し、データ予測損失を使用することで推論時の待機時間と品質のトレードオフを柔軟に制御できます。拡散バッファは、実際のノイズの多い音声データに対しても、従来の予測モデルを上回る性能を示しています。