強化学習(RLHF)は、大規模言語モデルのトレーニング後に重要な技術として登場しています。従来、KL正則化されたターゲットを学習することは、報酬ベースのBradley-Terry(BT)モデルを利用する研究が主流でしたが、この記事では、一般的な優先モデルに着目し、従来の手法と比べて大幅な性能向上を保証する結果を得ました。特に、従来の楽観的または悲観的な推定を使用するのではなく、実際の推定(貪欲サンプリング)を直接利用するアルゴリズムから得られた知見が重要です。この構造的特性が、RLHFにおける貪欲サンプリングの驚くべき有効性を強調しています。