オートルブリック：報酬モデリングのための一般化可能な基準を抽出する学習

本稿では、報酬モデルの開発における課題を解決するための新しいフレームワーク、Auto-Rubricを提案しています。報酬モデルは、大規模言語モデル（LLM）と人間の価値観を調整するために重要ですが、コストのかかる嗜好データセットと解釈の難しさが障害となっています。著者たちは、人間の嗜好に基づく評価ルブリックが多様なクエリ間で一般化する力を持つことを前提に、データ効率を高めることに成功しました。具体的には、まずクエリ特有の高品質なルブリックを推論し、その後、これらを圧縮された重要なセットに一般化します。70組の嗜好ペアのみを使用することで、小型モデルが専門の訓練済みモデルを上回る成果を出すことが示されています。この研究は、報酬モデリングのためのスケーラブルで解釈可能かつデータ効率の良い手法を確立するものです。