arXiv cs.AI

スケーリング時代のデータ価値:実データと合成データの混合におけるLLMスケーリングダイナミクスの理解

Data Value in the Age of Scaling: Understanding LLM Scaling Dynamics Under Real-Synthetic Data Mixtures

http://arxiv.org/abs/2511.13640v1


本論文では、大規模言語モデル(LLM)の進展が、実データと合成データを混合したデータセットへの依存によって促進されていることを説明します。合成データはスケーラビリティとコスト効率を提供しますが、長尾知識の過小表現を引き起こすなどの系統的な分布の不一致を導入することがあります。このような不一致は、混合された実データと合成データの評価と特性設定において根本的な課題となります。著者たちは、モデルの学習過程における振る舞いの転換点を示す3段階のスケーリング動作を特定し、実データと合成データ混合に適した一般化境界を導出しました。さらに、広範な実験を通じて、多様なタスクにおいて新たなデータ価値評価法が、低コストで最先端の手法を上回る成果を示したことを示しています。