arXiv cs.AI

強化学習におけるシミュレーションから実世界への性能ギャップの解消

Closing the Sim2Real Performance Gap in RL

http://arxiv.org/abs/2510.17709v1


本記事では、シミュレーション環境で訓練された強化学習(RL)ポリシーが、現実世界に展開される際に生じる性能低下、いわゆる「Sim2Realパフォーマンスギャップ」について述べています。現在のSim2Real RL手法では、シミュレータの精度や変動性を基準にしているものの、これらは必ずしも実世界のパフォーマンスと相関しません。この記事では、実世界のパフォーマンスに基づいてシミュレーターのパラメータを直接適応させる新たなフレームワークを提案しています。具体的には、内側レベルのRLが純粋にシミュレーション内でポリシーを訓練し、外側レベルのRLがシミュレーションモデルと報酬パラメータを適応させて実世界でのパフォーマンスを最大化するという二層構造を採用しています。このアプローチの数学的手法を簡単な例で導出・検証し、Sim2Real性能ギャップの解消に向けた新しいアルゴリズムの開発に寄与することを目指しています。