本研究では、ヒューマン・イン・ザ・ループオンライン拒絶サンプリング(Hi-ORS)という手法を提案します。この手法は、ロボット操作における強化学習(RL)の不安定性の問題を解決することを目的としています。強化学習は効果的なポリシーを生み出す一方で、視覚と言語を基にした動作モデルの微調整は価値推定の不正確さや疎な監視によって難航します。対照的に、模倣学習(IL)は訓練が簡単ですが、オフラインであるため性能が劣ります。Hi-ORSは、オンライン微調整中に負の報酬を受けたサンプルを排除し、報酬に基づいた監視学習を導入することで安定した価値推定を実現します。さらに、著者たちは非同期推論・訓練フレームワークを開発し、人間の修正をリアルタイムで反映することでエラー回復行動の学習をサポートします。実験において、Hi-ORSは3つのリアルワールドタスクで従来のRLおよびILを大幅に上回る結果を示しました。