オンライン強化学習のための制御可能フローマッチング

モデルベースの強化学習（MBRL）はデータ効率を高めるために環境の動力学をモデル化することが一般的ですが、長期的なロールアウトにおいてモデルの誤差が蓄積され、安定性を維持するのが困難です。これを解決するために、著者たちはCtrlFlowと呼ばれる手法を提案しました。これは条件付きフローマッチング（CFM）を用いた軌道レベルの合成手法で、環境の遷移関数を明示的にモデル化せずに、初期状態から高い報酬を持つ終端状態への軌道の分布を直接モデル化します。CtrlFlowは、非線形制御可能性グラミアン行列によって制御エネルギーを最小化することで最適な軌道サンプリングを確保し、生成された多様な軌道データは政策学習の堅牢性とタスク間の一般化を大幅に向上させます。オンライン環境において、CtrlFlowは一般的なMuJoCoベンチマークタスクで動力学モデルよりも優れた性能を示し、標準的なMBRL手法と比較しても著しいサンプル効率を達成しています。