貪欲サンプリングはRLHFに対して理論的に効率的である

強化学習（RLHF）は、大規模言語モデルのトレーニング後に重要な技術として登場しています。従来、KL正則化されたターゲットを学習することは、報酬ベースのBradley-Terry（BT）モデルを利用する研究が主流でしたが、この記事では、一般的な優先モデルに着目し、従来の手法と比べて大幅な性能向上を保証する結果を得ました。特に、従来の楽観的または悲観的な推定を使用するのではなく、実際の推定（貪欲サンプリング）を直接利用するアルゴリズムから得られた知見が重要です。この構造的特性が、RLHFにおける貪欲サンプリングの驚くべき有効性を強調しています。