OffSimは、専門家が生成した状態-行動のトラジェクトリから環境のダイナミクスと報酬構造を直接模倣することを目的とした新しいモデルベースのオフライン逆強化学習(IRL)フレームワークです。このシステムは、高エントロピーの遷移モデルとIRLに基づく報酬関数を共同で最適化し、探索を促進し学習された報酬の一般化を向上させます。OffSimを使用することで、実際の環境とのさらなる相互作用なしにポリシーをオフラインで訓練できます。また、OffSimの拡張版であるOffSim$^+$は、マルチデータセット環境での探索を強化するための限界報酬を組み込んでいます。詳細なMuJoCo実験の結果、OffSimは既存のオフラインIRL手法に対して著しい性能向上を示し、その有効性と堅牢性が確認されました。