この記事では、言語モデルの精度には情報エントロピーが内在するため、限界があることが説明されています。事実、現在の最も効率的な言語圧縮アルゴリズムは因果モデルに基づく生成モデルですが、これを使用して言語エントロピーを正確に推定することは計算上困難です。著者らは、優れたトレーニング効率を持ち、因果トランスフォーマーよりも高い圧縮率を達成できるエンコーダ拡張因果デコーダモデルアーキテクチャを提案します。さらに、トークンごとのエントロピー推定が可能であることを示し、エントロピーに基づいて訓練されたモデルは、損失を最小化することに努めるモデルよりも一般化能力が優れていることを実証しています。