RLoopは、強化学習におけるトレーニングの過程で生じる「過学習」の課題を克服するために開発された自己改善フレームワークです。過学習とは、モデルが訓練報酬を獲得する一方で汎化能力を失う現象を指します。この現象は、ポリシーの過度な特化や多様な解法の忘却から引き起こされます。RLoopは、ポリシーの初期化を繰り返して、解空間を探るサイクルを形成し、成功した軌道から専門的なデータセットを生成します。そのデータセットを利用してポリシーを洗練させ、次の反復の出発点を改善します。この探索と活用のプロセスは、流動的なポリシーの変化を持続的なパフォーマンス向上に変換します。実験結果により、RLoopは忘却を軽減し、汎化能力を大幅に改善することが示されており、平均精度が9%、pass@32が15%以上向上します。