CBF-RL: 制御バリア関数を使用した安全フィルタリング強化学習の訓練

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

この研究は、強化学習（RL）の訓練における安全性を向上させるフレームワーク「CBF-RL」を提案しています。従来、RLは性能を重視するあまり、安全性が疎かになることがあり、実際の運用で重大な事故を引き起こす可能性があります。制御バリア関数（CBF）は、新しい手法を提供し、動的安全性を強制するためのもので、オンラインでの安全フィルタとして通常使用されます。しかし、RLポリシーがCBFを知ることができないため、行動が保守的になります。CBF-RLでは、まずRLポリシーにCBFを組み込むことで安全制約を示し、続いて訓練中のポリシーロールアウトの安全性をフィルタリングします。この研究により、学習されたポリシーが安全制約を内在化し、より安全な行動を促進し、報酬の偏りを調整することが可能になります。実験では、CBF-RLがユニットツリーG1ヒューマノイドロボットにおいて、障害物を避けつつ、安全に階段を登る能力を向上させることが確認されました。