LaSeR：最後のトークンによる自己報酬強化学習

本記事では「LaSeR」（最後のトークンによる自己報酬強化学習）という新しいアルゴリズムを提案しています。このアルゴリズムは、従来の強化学習の手法を改良し、モデルの自己検証能力と推論能力を一つの枠組みで統合することを目指しています。従来の手法では、解決策と自己検証を生成するために別々のプロンプトが必要であり、それが効率を下げていました。LaSeRでは、解決策の最終トークンの自己報酬スコアを利用して推論報酬と整合されるように最適化された損失を導入し、推論性能を向上させることに成功しています。このアプローチにより、モデルは訓練・テスト時に自己報酬スコアを用いて性能を向上させることが可能となり、さらに推論時のスケーリング性能も強化されています。