本記事では、ロボットの安全かつ効率的なポリシー展開のための新しいフレームワーク「UEPO」が提案されています。従来のオフラインからオンラインへの強化学習(O2O-RL)では、多様な行動のカバレッジの制限やオンライン適応中の分布シフトといった課題が存在しました。UEPOは、異なるモードを効率的に捉えるマルチシードダイナミクス認識拡散ポリシー、身体的に意味のあるポリシーディバーシティを強制する動的発散正則化機構、ダイナミクスモデルの一般化を向上させる拡散ベースのデータ拡張モジュールの3つの主要な貢献を持っています。D4RLベンチマークにおいて、UEPOは locomotionタスクでUni-O4より5.9%、器用な操作で12.4%の改善を達成し、強い一般化能力とスケーラビリティを示しています。