強化学習(RL)によるファインチューニングは、大規模言語モデル(LLMs)の調整に重要ですが、高い変動性が伴い不安定なプロセスであるため、最良のチェックポイントを選択することが難しいです。本論文では、不確実性に基づくチェックポイント選択法(UGCS)を提案しています。この手法では、サンプルごとの差異を評価し、難しい質問-回答ペアを特定することで、各チェックポイントの性能を順位付けします。最も不確実なサンプルの報酬を短期間で平均化することで、追加の計算コストなしに安定した信号を生成します。実験結果は、UGCSが従来の手法よりも優れた一般化能力を持つチェックポイントを一貫して選択できることを示しており、モデルが難易度の高いタスクを低不確実性で解決する際に最も信頼性が高いことを強調しています。