Masked Auto-Regressive Variational Acceleration: 高速推論が実用的な強化学習を可能にする

Masked Auto-Regressive Variational Acceleration: Fast Inference Makes Practical Reinforcement Learning

本論文では、Masked Auto-Regressive Variational Acceleration（MARVAL）という新たなフレームワークを導入し、強化学習（RL）向けのマスク付き自己回帰拡散モデル（MAR）の推論速度を劇的に改善します。従来のMARは、階層的推論メカニズムにより推論が遅く、生成効率が低下し、実用化が難しいという問題を抱えていました。MARVALは、拡散チェーンを単一のAR生成ステップに圧縮することによって、高速かつ柔軟な生成を実現します。また、実験では、ImageNetにおいて30倍以上の速度向上を達成し、CLIPおよび画像報酬スコアにおいても一貫した改善を示しました。この成果により、MASKARモデルの蒸留とRLの実用化に向けた新たな道が開かれたことが強調されています。