無限計算による事前学習

本稿では、言語モデルによる事前学習において、データが固定され計算リソースに制限がない場合のアプローチを検討します。計算リソースがデータよりも急速に増加している中、既存のアプローチに従うと過学習が生じることを示しました。我々は正則化を適切に調整し、最適な重み減衰が標準的な実践よりも30倍大きいことを発見しました。また、独立に訓練したモデルのアンサンブルが、正則化された手法よりも低い損失を達成することを特定しました。最終的に、エポック数の調整、正則化、パラメータのスケーリング、アンサンブルのスケーリングを組み合わせたアプローチにより、データ効率が大幅に改善し、200Mトークンで基準よりも5.17倍少ないデータで最高の性能を実現しました。これにより、計算リソースが豊富な未来において、データ効率の高い事前学習が可能になることを示しています。