arXiv cs.LG

実行による保持:忘却を軽減するためのオンポリシーデータの役割

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

http://arxiv.org/abs/2510.18874v1


本論文では、言語モデル(LM)を新しいタスクに適応させる際の悲劇的な忘却を軽減するためのガイドラインを特定するため、二つの広く採用されるポストトレーニング手法である監視付けファインチューニング(SFT)と強化学習(RL)の忘却パターンを系統的に比較しました。実験の結果、RLはSFTよりも少ない忘却を伴いながら、同等またはそれ以上のターゲットタスクのパフォーマンスを達成する傾向が確認されました。この差の原因として、RLがオンポリシーデータを使用することで前の知識を維持しながらターゲットタスクを学習する能力があることを示しました。そして、実際の設定でのRLの忘却に対する堅牢性の根源がオンポリシーデータにあることを検証しました。実践的には、完全なオンポリシーデータを取得するよりも、約オンポリシーデータを利用することで忘却を軽減できる可能性が示されました。