オンライン強化学習における確率空間でのフローポリシーの反復的改善

Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning

本研究では、オンライン強化学習におけるフローポリシーの改善手法を提案します。従来の行動模倣はデモから複雑なスキルを学習できるものの、分布変化に敏感で、標準的な強化学習手法はこれらのモデルを微調整するのが難しいという問題があります。新たに導入されたステップワイズフローポリシー（SWFP）は、固定ステップオイラー法を用いてフロー推論プロセスを離散化することで、オプティマルトランスポートの変分的原理と整合することを本質的に実現します。SWFPは、グローバルフローを近接分布間の小さな変換の系列に分解し、各ステップがJKOアップデートに対応します。このアプローチにより、政策変更が前回のイテレーションに近いまま保たれ、オンライン適応が安定化し、エントロピー正則化も行われます。実験結果から、SWFPは安定性、効率性、適応性能が向上し、ロボット制御のベンチマークでその効果が示されています。