RoboGPT-R1: 強化学習によるロボット計画の強化

RoboGPT-R1は、ロボットが人間の複雑な指示を長期的な操作タスクで成功裏に実行できるよう、実体化されたエージェントの推論能力を向上させることを目的としたフレームワークです。これまでの大規模な言語モデルやビジョン言語モデルは、計画タスクにおいて一定の成功を収めましたが、実世界の複雑な環境での長期間の操作タスクに対しては、常識や推論能力が限られているために困難な課題に直面しています。RoboGPT-R1は、二段階のファインチューニングを用いており、最初に専門家のシーケンスを通じて基礎知識を習得し、次に強化学習（RL）によって視覚・空間理解と推論の課題を克服します。このフレームワークでは、ルールベースの報酬関数を設計し、長期的なパフォーマンスと環境内のアクション制約を同時に考慮しています。結果として、EmbodiedBenchベンチマークにおいて、RoboGPT-R1は大規模モデルのGPT-4o-miniを21.33%上回り、他の関連研修モデルも超える成果を示しています。