本論文では、CRM(マルチエージェント協調報酬モデル)というフレームワークを提案し、単一のブラックボックス報酬モデルを専門的な評価者のチームに置き換えることで、強化学習の堅牢性と解釈可能性を向上させることを目的としています。従来の報酬モデルは、事実性や有用性、安全性といった相反する複数の評価基準を同時に最適化することが困難で、スコア付けの理由も不透明でした。CRMは、これらの問題に対処するために、特定のドメインに特化したエージェントが生成する部分的な信号と、ランクベースや埋め込み類似度報酬といったグローバル評価者を組み合わせて、評価を分解します。各タイムステップで中央集約的に信号を融合させることで、正確性やエージェント間の合意、および繰り返しペナルティをバランスさせ、標準的な強化学習パイプラインと互換性のある単一の訓練報酬を生成します。さらに、この協調構造に合わせたトレーニングスイートであるrewardBenchを導入し、より透明な報酬モデリングと安定した最適化への実用的な道を提供します。