大規模データセットは繰り返し利用できる: 線形回帰における多エポックスケーリングの理論分析

Larger Datasets Can Be Repeated More: A Theoretical Analysis of Multi-Epoch Scaling in Linear Regression

この論文は、限られたデータと繰り返しエポックの下での大規模言語モデル(LM)のデータスケーリング法則について理論的に分析しています。具体的には、エポックを複数回訓練することで線形回帰モデルのパフォーマンスを向上させる方法を探求しています。著者たちは、データセットのサイズをN、エポック数をKとした場合、Kエポックの訓練と同等のパフォーマンスを得るには、データセットがどれだけ大きくなる必要があるかを定量化しています。特に、データの「効果的再利用率」E(K, N)を導入し、これが小さいKの場合はE(K, N)がKに近づくことを示しています。一方で、Kが増加するとE(K, N)はNに依存した値に平坦化し、より大きなデータセットは繰り返し利用されやすいことが示されました。この結果は、最近の実証研究における見落とされた要因を強調しています。