arXiv cs.AI

PaTaRM: ペアワイズとポイントワイズ信号を嗜好に応じたタスク適応報酬モデルで結びつける

PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling

http://arxiv.org/abs/2510.24235v1


本研究では、報酬モデル(RM)が人間のフィードバックに基づく強化学習・RLHFにおいて重要な役割を果たすことを示します。この報酬モデルは、大規模言語モデル(LLM)と人間の嗜好を整合させるための重要な監視信号を提供します。従来の二値ラベルに依存するペアワイズ手法は、ポイント推論との不一致を引き起こし、複雑なペアリング戦略が必要です。一方でポイントワイズ手法では、詳細な絶対評価が求められるため適応性が低く、注釈コストも高いという問題があります。そこで、本研究は、嗜好に応じたタスク適応報酬モデル(PaTaRM)を提案し、ペアワイズデータからの相対的な嗜好情報を活用して堅牢なポイントワイズ訓練信号を構築します。さらに、タスク適応型評価基準を用いることで、全体のタスク整合性とインスタンス特有の詳細な推論を効率よく生成できます。実験結果は、PaTaRMがRewardBenchとRMBenchで平均4.7%の改善を達成し、RLHFの下流性能を13.6%向上させることを示しています。