この論文では、「Seer」と呼ばれるオンラインコンテキスト学習システムを提案しています。強化学習(RL)は現代の大規模言語モデル(LLM)の進展において重要ですが、従来の同期RLシステムはパフォーマンスのボトルネックに直面しています。特にロールアウトフェーズは終端から終端への反復時間を圧迫し、長尾レイテンシやリソースの非効率な活用が問題となっています。Seerは、同じプロンプトを共有するリクエスト間の出力長や生成パターンの類似性を考慮し、ダイナミック負荷分散のための分割ロールアウト、コンテキストに基づくスケジューリング、適応グループ化投機的デコーディングという三つの新しい手法を導入することで、長尾レイテンシを削減し、リソース効率を向上させています。実験結果では、Seerは最先端の同期RLシステムに比べてエンドツーエンドのロールアウトスループットを74%から97%向上させ、長尾レイテンシを75%から93%低減させることが示され、RLのトレーニング反復を大幅に加速します。