批判なしで学ぶ？古典的強化学習環境におけるGRPOの再検討

Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments

Group Relative Policy Optimization（GRPO）は、学習済みの批判を排除し、経路のグループ相対比較を通じて利点を推定することで、Proximal Policy Optimization（PPO）に代わるスケーラブルな手法として登場しました。このシンプル化は、ポリシー勾配法における学習済み基準の必要性についての根本的な問いを提起します。本研究では、古典的な単一タスクの強化学習環境におけるGRPOの系統的な研究を初めて行い、離散的および連続的な制御タスクに対する成果を示しました。実験を通じて、学習済みの批判が長期タスクにおいて不可欠であることや、高い割引率がGRPOに利益をもたらす条件、そして小規模なグループサイズが大規模なものを上回ることが明らかになりました。これらの結果は、古典的制御における批判なしの手法の限界と、学習済みの価値関数の代替手段として有効である特定の条件を示しています。