RL-100: 実世界強化学習による高性能ロボティックマニピュレーション

RL-100は、実世界でのロボットマニピュレーションを高めるための強化学習トレーニングフレームワークです。このフレームワークは、三段階のパイプラインを採用しており、まず模倣学習で人間の知識を活用します。次に、オフラインポリシー評価（OPE）を使用してPPOスタイルの更新を行う反復的なオフライン強化学習を実施し、信頼性の高い改善を目指します。最後に、オンライン強化学習で残存する障害を排除します。この手法は、3Dポイントクラウドや2D RGB入力に対応し、さまざまなロボットプラットフォームでの使用が可能です。RL-100は、Push-TやAgile Bowlingなど7つの実ロボットタスクで100%の成功率を示し、最大250連続トライでも成功を収めました。また、最大2時間の連続運転にも耐えられる堅牢性を持っています。