この論文は、限られたデータと繰り返しエポックの下での大規模言語モデル(LM)のデータスケーリング法則について理論的に分析しています。具体的には、エポックを複数回訓練することで線形回帰モデルのパフォーマンスを向上させる方法を探求しています。著者たちは、データセットのサイズをN、エポック数をKとした場合、Kエポックの訓練と同等のパフォーマンスを得るには、データセットがどれだけ大きくなる必要があるかを定量化しています。特に、データの「効果的再利用率」E(K, N)を導入し、これが小さいKの場合はE(K, N)がKに近づくことを示しています。一方で、Kが増加するとE(K, N)はNに依存した値に平坦化し、より大きなデータセットは繰り返し利用されやすいことが示されました。この結果は、最近の実証研究における見落とされた要因を強調しています。