arXiv cs.AI

監査可能な選択的再構成がオープンエンドタスクのRLベースの検証を可能にする

Auditable-choice reframing unlocks RL-based verification for open-ended tasks

http://arxiv.org/abs/2511.02463v1


この記事では、強化学習と検証可能な報酬(RLVR)が大規模言語モデル(LLMs)の論理能力を強化する可能性を探求しています。特に、創造的な執筆や指示追従などのオープンエンドタスクにおいて、従来のアプローチでは標準解が存在しないため、思考能力の重要性が見落とされています。本研究では、これに対応するために新たに「検証可能な選択肢再構成(VMR)」を提案しています。この方法ではオープンエンドデータを検証可能な複数選択肢形式に再構築し、明示的な基準が無くても効果的なトレーニングを可能にします。実験結果において、VMRを用いたトレーニングは8つのベンチマークで平均5.99ポイントの性能向上を示し、オープンエンドタスクにおけるLLMの能力向上を確認しました。