STEP: 成功率を考慮した軌道効率的ポリシー最適化

オンライン強化学習におけるマルチターンの相互作用は依然として難しい課題であり、一般的な解決策として軌道レベルの最適化がある。しかし、この方法は効率が悪く、誤解を招く学習信号を生む可能性がある。具体的には、各タスクの難易度を無視して均等なサンプリングを行ったり、失敗した軌道における正しい中間行動を罰したり、高いサンプル収集コストを招いたりする。これらの課題に対処するために、著者たちはSTEP（成功率を考慮した軌道効率的ポリシー最適化）というフレームワークを提案し、各タスクの成功率に基づいてサンプリングを動的に割り当て、ステップレベルの最適化を行う。STEPは、適応的な軌道再サンプリングを導くための成功率記録を平滑化し、難易度の高いタスクにより多くのリソースを投入する。実験結果では、STEPがサンプル効率と訓練の安定性を大幅に改善し、同じサンプリング予算のもとでより早く収束し、より良い一般化を示したことが確認された。