本研究では、Re-FORCという新しい適応報酬予測手法を提案しています。この手法は、特定の文脈が与えられた際に、未来の思考トークンの数に応じて予想される報酬を予測することを可能にします。Re-FORCは軽量なアダプターを推論モデルに対して訓練することで、長い推論や大規模なモデルにおいても予測精度を向上させることを示しています。この手法により、1) 意味のない推論チェーンの早期停止が可能となり、計算資源を26%削減しつつ精度を維持、2) モデルと思考の長さの最適化により、同等の計算で精度を4%向上させ、同等の精度で計算を55%削減、3) テスト時のスケーリングの適応が可能になり、高計算条件下で精度を11%向上、低計算条件下で7%向上させることができます。Re-FORCは、コストごとのトークンのしきい値を通じて動的に推論の長さを制御し、前もって計算時間を見積もることができます。