報酬モデルが不確かさを持つとき、強力なLLM判定者に尋ねる

この研究では、強力なLLM（大規模言語モデル）判定者を利用して報酬モデル（RM）の不確かさを克服する手法を提案しています。強化学習と人間のフィードバックを組み合わせた手法において、従来のRMは人間の好みに基づいて訓練されているものの、報酬のハッキングに弱く、分布外のデータに対する一般化能力が低いことが課題です。一方、強力なLLM判定者は、追加の訓練なしでも優れた一般化能力を示しますが、高い推論コストが問題となり、オンラインのRLHF（人間のフィードバックによる強化学習）での適用が制限されます。本研究では、不確かさに基づくルーティングフレームワークを提案し、迅速なRMを高コストの強力なLLM判定者で効率的に補完します。実験では、提案手法がコストを同じに保ちながらランダムな判定者呼び出しよりも大幅に優れた性能を示し、オンラインRLHFの整合性を改善する効果を確認しました。