EntroPIC: 比例・積分制御によるエントロピー安定化を通じた大規模言語モデルの安定的長期訓練に向けて

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

この研究では、大規模言語モデル（LLM）の長期訓練において、エントロピーの安定化が重要であると提案しています。エントロピーは探索の制御に寄与し、モデルの最適でない挙動への収束を避ける役割を果たします。しかし、従来の強化学習手法では、ポジティブおよびネガティブサンプルの混合によりエントロピーを適切に維持することが困難でした。本研究では、比例・積分制御（EntroPIC）を用いたエントロピー安定化の新たな手法を提案します。この手法では、ポジティブおよびネガティブサンプルの影響を動的に調整し、エントロピーを安定的に保ちながら効率的な探索を実現します。理論的な分析と実験結果により、EntroPICが大規模LLM訓練におけるエントロピー制御に効果的であることが示されました。