この記事では、強化学習と検証可能な報酬(RLVR)が大規模言語モデル(LLMs)の論理能力を強化する可能性を探求しています。特に、創造的な執筆や指示追従などのオープンエンドタスクにおいて、従来のアプローチでは標準解が存在しないため、思考能力の重要性が見落とされています。本研究では、これに対応するために新たに「検証可能な選択肢再構成(VMR)」を提案しています。この方法ではオープンエンドデータを検証可能な複数選択肢形式に再構築し、明示的な基準が無くても効果的なトレーニングを可能にします。実験結果において、VMRを用いたトレーニングは8つのベンチマークで平均5.99ポイントの性能向上を示し、オープンエンドタスクにおけるLLMの能力向上を確認しました。