arXiv cs.LG

拡散言語モデルは超データ学習者である

Diffusion Language Models are Super Data Learners

http://arxiv.org/abs/2511.03276v1


この記事では、拡散言語モデル(DLM)が自動回帰モデル(AR)を超える性能を示すことを報告しています。特に限られたデータの条件下で、DLMはエポックを重ねることでARを一貫して上回る結果を得ることが確認されました。この効果はデータ量が多いほど遅れ、小さなモデルでは早まる傾向があります。DLMの優れた性能は、任意の順序でのモデリング、双方向のデノイジングによる超密な計算、そして内蔵されたモンテカルロ拡張に起因しています。具体的には、17億パラメータのDLMが約15兆トークンの計算リソースを用いて10億のユニークなPythonトークンで訓練され、ARモデルを凌駕しました。また、10億トークンを用いても高い精度を維持することができ、バリデーションの交差エントロピーが上昇してもパフォーマンスの低下は見られないとしています。