やり直しを学ぶ: 可逆性信号を用いたロールバック強化学習

Learning to Undo: Rollback-Augmented Reinforcement Learning with Reversibility Signals

本稿では、強化学習エージェントの堅牢性と効率を向上させるための可逆学習フレームワークを提案しています。このフレームワークは、遷移の可逆性を示す指標「Phi」と、選択的な状態ロールバック操作を基盤としています。Phiは、特定の時間枠内で前の状態に戻る可能性を定量化し、価値関数への可逆性意識の統合を促進します。エージェントは、期待されるリターンが直前の推定値を著しく下回った場合に前の状態に戻ることで、非最適な高リスクの経路を中断します。この手法は、CliffWalking v0ドメインで99.8%以上の致命的な落下の削減と55%のエピソード平均リターンの増加を達成し、Taxi v3ドメインでは99.9%以上の違法行動の抑制と65.7%の累積報酬の改善を果たしました。このロールバック機構が安全性とパフォーマンスの向上に寄与する重要な要素であることが確認され、安全で信頼性の高い順次意思決定への重要な一歩となっています。