本論文では、ドメイン適応における継続的なプリトレーニング(CPT)の重要性について述べ、ターゲットドメインの改善とベースドメインの安定性のバランスを取る必要性を強調しています。従来のCPTスケーリング法則では、固定されたプリトレーニング予算を前提としているため、異なるトークンあたりのパラメータ(PTPP)で訓練されたモデルの適応結果を予測する能力が制限されていました。著者たちは、プリトレーニング予算を明示的な変数とする「PTPP-aware」適応のスケーリング法則を提案し、見知らぬPTPPでの適応損失の予測を可能にしました。具体的には、英語/アラビア語からフランス語への多言語設定において、初期段階のPTPP(15および31)で訓練されたモデルがPTPP=279におけるターゲット損失を予測し、従来のPTPP無視のモデルを上回る結果を示しました。また、計算制約下でターゲットおよび忘却制約を満たすリプレイ比率や適応トークン予算の計画についても実用的な事例を示しています。