10億トークンチャレンジ：完璧なプレトレーニングミックスの発見

この記事では、GPT-2モデルのトレーニングにおいてデータ量を大幅に削減しつつ、高いパフォーマンスを達成するための最適なデータセット構成を探る過程が紹介されています。具体的には、1億トークンを使用して、元のGPT-2と同等の性能を発揮するための50%の高品質教育PDF、30%の多様なウェブコンテンツ、20%のキュレーションされた教育ウェブリソースを含むデータミックスを発見しました。このアプローチにより、従来の方法よりも少ないデータで良好な一般化性能を実現し、トレーニングの効率化が図れることが示されました。研究の結果、単にデータを増やすのではなく、質の高いデータの選定が重要であることが確認され、最適なデータセットの組み合わせが記録されました。