監査可能な選択的再構成がオープンエンドタスクのRLベースの検証を可能にする

この記事では、強化学習と検証可能な報酬（RLVR）が大規模言語モデル（LLMs）の論理能力を強化する可能性を探求しています。特に、創造的な執筆や指示追従などのオープンエンドタスクにおいて、従来のアプローチでは標準解が存在しないため、思考能力の重要性が見落とされています。本研究では、これに対応するために新たに「検証可能な選択肢再構成（VMR）」を提案しています。この方法ではオープンエンドデータを検証可能な複数選択肢形式に再構築し、明示的な基準が無くても効果的なトレーニングを可能にします。実験結果において、VMRを用いたトレーニングは8つのベンチマークで平均5.99ポイントの性能向上を示し、オープンエンドタスクにおけるLLMの能力向上を確認しました。