KL正則化強化学習はモード崩壊を引き起こすように設計されている

この記事では、逆KLダイバージェンスの最適化が「モード探索」を引き起こし、前方KLダイバージェンスの最適化が「質量カバー」をもたらすという一般的な考え方に挑戦しています。著者たちは、逆KL及び前方KL正則化を用いた強化学習において、この直感が必ずしも適用できないことを数理的かつ実証的に示しています。特に、逆/前方KLの選択が最適なターゲット分布のファミリーを決定し、モードカバレッジは正則化の強度や報酬と参照確率の相対的スケールといった他の要因に依存することがわかりました。また、低い正則化強度や等しい検証可能な報酬を用いた場合、単一のモードターゲット分布が指定される傾向があることも明らかにしました。この記事では、これらの知見を利用して、高品質なサンプリングモードに高い確率を置くターゲット分布を最適化する簡単でスケーラブルなアルゴリズムを提案しています。このアルゴリズムは、特に大規模言語モデルや化学言語モデルの後トレーニングにおいて、より高い解の質と多様性を実現します。