DPOは誤指定された推定量であり、その修正方法

本記事では、直接的なアラインメントアルゴリズムである直接選好最適化（DPO）が、選好データに基づいてモデルを微調整する際に抱える問題を考察しています。DPOは、人間のフィードバックを用いた二段階強化学習（RLHF）を使用せず、単一の監視学習に依存しています。この結果、DPOはパラメトリックポリシークラスによって誘導される報酬関数の統計的推定問題を扱いますが、実際の報酬関数がポリシークラスで実現できない場合、DPOは誤指定され、選好順序の逆転やポリシー報酬の悪化、入力データの分布に対する高感度などの失敗モードを引き起こします。これに対して、二段階RLHFの局所的な挙動を調査し、ポリシースペースにおける自然勾配ステップに関連付けることができる新しい手法AuxDPOを提案。AuxDPOは、DPOのロス関数に追加の補助変数を導入し、原理的にRLHFソリューションへの移行を促進し、誤指定の問題を軽減します。