arXiv cs.AI

エージェンティックエントロピー均衡ポリシー最適化

Agentic Entropy-Balanced Policy Optimization

http://arxiv.org/abs/2510.14545v1


この論文では、エージェンティック強化学習(Agentic RL)の進展と、エントロピー信号への過度の依存がもたらす課題について議論しています。特に、エントロピーに基づく操作がトレーニングの崩壊を引き起こす可能性があることを指摘し、新しいアルゴリズム「エージェンティックエントロピー均衡ポリシー最適化(AEPO)」を提案しています。AEPOは、ロールアウトとポリシー更新の両方でエントロピーをバランスさせる設計がされています。具体的には、動的エントロピー均衡ロールアウトメカニズムと、高エントロピークリッピング項にストップグラデュエーションを挿入することで、高エントロピーグラデュエントを適切にスケーリングする手法が含まれています。実験結果では、AEPOが7つの主流RLアルゴリズムを一貫して上回る性能を示し、特に限られたサンプル数でも顕著な成果を上げています。