非専門データを活用して模倣学習を強化するオフライン強化学習の利用

Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning

模倣学習は、専門家によるデモンストレーションからロボットに複雑なタスクを教えるのに効果的ですが、高品質で特定のタスクに依存するため、さまざまな現実世界の状況に適応しづらいという限界があります。反対に、非専門データ（プレイデータや部分的なタスク完了など）は、広範なカバレッジと低コストで収集できる利点がありますが、従来の模倣学習手法ではこれを効果的に活用できていません。本研究では、適切な設計によりオフライン強化学習を用いて非専門データを取り入れ、模倣学習の性能を向上させる方法を提案しています。標準的なオフラインRL手法は、実世界のスパースなデータカバレッジの中で非専門データを有効に活用できないことがありますが、簡単なアルゴリズムの修正でこのデータを利用できるようになります。これによりタスクの堅牢性が向上し、成功する初期条件の範囲が広がります。さらに、部分的または非最適なデモも活用し、タスク指向のポリシー性能を強化できることが示されています。