拡散言語モデルは超データ学習者である

この記事では、拡散言語モデル（DLM）が自動回帰モデル（AR）を超える性能を示すことを報告しています。特に限られたデータの条件下で、DLMはエポックを重ねることでARを一貫して上回る結果を得ることが確認されました。この効果はデータ量が多いほど遅れ、小さなモデルでは早まる傾向があります。DLMの優れた性能は、任意の順序でのモデリング、双方向のデノイジングによる超密な計算、そして内蔵されたモンテカルロ拡張に起因しています。具体的には、17億パラメータのDLMが約15兆トークンの計算リソースを用いて10億のユニークなPythonトークンで訓練され、ARモデルを凌駕しました。また、10億トークンを用いても高い精度を維持することができ、バリデーションの交差エントロピーが上昇してもパフォーマンスの低下は見られないとしています。