HackerNews

Drax: 離散流マッチングによる音声認識

Drax: Speech Recognition with Discrete Flow Matching

https://huggingface.co/papers/2510.04162


Draxは、音声認識(ASR)のための離散流マッチングフレームワークで、音声条件付きの確率パスを構築することで、優れた認識精度と効率を実現します。従来の自己回帰モデルとの性能を比較し、Draxは、推論過程での動態により適切にマッチする中間分布を取り入れており、精度と効率のトレードオフをより良く制御できます。理論的な分析に基づき、学習と推論の間の一般化ギャップは累積速度誤差によって制御されるため、設計の選択が支持されています。実験的評価では、Draxのアプローチが最新の音声モデルと同等の認識精度を達成し、注目すべき進展を示しています。