深層学習におけるモデルの深さは、精度向上と計算コストの増加という二面性を持っています。効率的にモデルを訓練するための効果的な戦略として提案されるのが進行訓練であり、これにより訓練中にモデルの容量を段階的に拡張することができます。本研究では、最適化理論と特徴学習の観点から大規模モデルの深さ拡張を探求し、新しい層の初期化、ハイパーパラメータの移譲、学習率のスケジュール、モデル拡張のタイミングについての洞察を提供します。具体的には、計算と損失との最適なトレードオフを実現するため、ゼロ層及び一層の進行訓練を提案します。例えば、GPT2におけるこの進行訓練手法を用いることで、約80%の計算量を節約し、ほぼ同等の損失を得つつ約5倍の速度向上を達成できます。