本研究では、ロボット学習における行動クローン法の一般化性能の低さを克服するために、新たなダイナミクス整合性フロー適合ポリシー(DAP)を提案します。従来のアプローチは、専門家のデモ以上のデータの制約により、一般化が困難でした。近年の動画予測モデルは大規模データセットから豊富な時間空間表現を学習し、良好な結果を示していますが、制御入力を区別しないダイナミクスを学習しており、精密な操作タスクには限界があります。DAPでは、ダイナミクス予測をポリシー学習に統合し、ポリシーとダイナミクスモデルが相互にフィードバックを行う新しいアーキテクチャを導入しています。この自己修正能力により、実世界のロボット操作タスクにおいてベースライン手法を上回る一般化性能を達成し、視覚的な妨害や照明の変化といった環境変化に対する耐性も示しています。