再帰深度モデルのための効率的な並列サンプラーとディフュージョン言語モデルとの関連性

Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

本稿では、再帰深度モデルとディフュージョン言語モデルの関係を探る。再帰深度モデルは、層の繰り返しによって計算能力を増加させる能力を持ち、トランスフォーマーアーキテクチャにおいてはユニバーサルまたはループ型と呼ばれる。筆者らは、これらのモデルの生成を加速する新しいディフュージョン強制サンプラーを開発し、各モデルの前方推論パスで新しいトークンをデコードすることにより進展を図る。理論的には、このサンプラーによる生成は、同じ時間予算下でのベースライン自動回帰生成よりも表現力が高い。また、このサンプラーは既存の3.5B再帰深度トランスフォーマーに対して調整なしで直接適用でき、最大5倍の速度向上を実現する。この研究は、再帰深度モデルにおける追加計算を効率的に並列処理するための新しいメカニズムを提供し、これらのモデルを強力な連続的かつ因果的なディフュージョン言語モデルと見なす可能性を示唆している。