エージェンティックエントロピー均衡ポリシー最適化

この論文では、エージェンティック強化学習（Agentic RL）の進展と、エントロピー信号への過度の依存がもたらす課題について議論しています。特に、エントロピーに基づく操作がトレーニングの崩壊を引き起こす可能性があることを指摘し、新しいアルゴリズム「エージェンティックエントロピー均衡ポリシー最適化（AEPO）」を提案しています。AEPOは、ロールアウトとポリシー更新の両方でエントロピーをバランスさせる設計がされています。具体的には、動的エントロピー均衡ロールアウトメカニズムと、高エントロピークリッピング項にストップグラデュエーションを挿入することで、高エントロピーグラデュエントを適切にスケーリングする手法が含まれています。実験結果では、AEPOが7つの主流RLアルゴリズムを一貫して上回る性能を示し、特に限られたサンプル数でも顕著な成果を上げています。