軽量堅牢直接選好最適化

この記事では、「軽量堅牢直接選好最適化（DPO-PRO）」という新しい機械学習アルゴリズムが提案されています。従来の直接選好最適化（DPO）は、大規模言語モデルの微調整において安定性と単純さから人気ですが、データのノイズに敏感で過学習しやすい問題があります。これに対処するため、分布的堅牢最適化（DRO）が提案されましたが、これらは計算コストが高く過度に保守的になる傾向があります。DPO-PROは、選好分布の不確実性を軽量なDROの定式化を用いて考慮し、計算オーバーヘッドを最小限に抑えつつ、ノイズの多い選好信号に対するロバスト性を改善します。評価実験では、標準的な整合性ベンチマーク及び実世界の公衆衛生タスクで、DPO-PROが既存のDPOバリアントと比較して常に robust であることが示されています。