Omni-Reward: 自由形式の嗜好に基づく一般的なオムニモーダル報酬モデルの構築に向けて

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

本記事では、AIの行動を人間の嗜好に合わせるための「報酬モデル（RM）」の重要性とそれに伴う課題について説明しています。主な問題は、モダリティの不均衡（テキストや画像に偏重し、動画や音声など他のモダリティへの対応が不十分であること）と嗜好の硬直性（固定された二項嗜好ペアでの訓練が個人の多様な嗜好を捉えられないこと）です。これらの問題を解決するために提案された「Omni-Reward」は、自由形式の嗜好をサポートする一般的なオムニモーダル報酬モデリングへの新たな一歩です。具体的には、九つのタスクをカバーした初のオムニモーダルRMベンチマーク「Omni-RewardBench」、248Kの一般嗜好ペアと69Kの指示調整ペアから成るデータセット「Omni-RewardData」、分別的および生成的RMを含む「Omni-RewardModel」を構築しています。これにより、他の報酬モデリングベンチマークと比較しても優れた性能を発揮することが期待されています。