観測されない嗜好の不均一性を伴う直接嗜好最適化：三元嗜好の必要性

Direct Preference Optimization with Unobserved Preference Heterogeneity: The Necessity of Ternary Preferences

本論文では、強化学習と人間のフィードバック（RLHF）のコンテキストにおける嗜好学習と経済学文献を結び付け、有限ユーザーデータから潜在的なユーザ嗜好を特定するためには、二項比較だけでは不十分であり、三つ以上の選択肢に対するランキングが必要であることを示します。また、異質な嗜好を調整アルゴリズムに組み込む手法を提案します。具体的には、潜在的なアノテータータイプを発見し、複数の大規模言語モデル（LLM）をトレーニングするための期待値最大化手法を導入し、さらに、ミニマックス後悔公平基準を用いた集約アルゴリズムを提案し、公平な性能保証を持つ単一の生成ポリシーを生成します。これらの貢献を通じて、生成モデルの調整における公平性と多様なユーザーへのパーソナライズのための理論的およびアルゴリズム的枠組みを確立します。