安全だが無用心ではない：不確実性に配慮したモジュレーションによる安全批評者の過剰保守主義の削減

Safe But Not Sorry: Reducing Over-Conservatism in Safety Critics via Uncertainty-Aware Modulation

強化学習（RL）エージェントの安全な探索は、実世界システムへの展開において重要です。しかし、既存のアプローチは安全性と性能の適切なバランスを取るのに苦労しています。安全を厳密に守る手法はタスク性能を損なう一方、報酬を優先する手法は安全制約をしばしば無視してしまいます。本研究では、Uncertain Safety Critic（USC）という新しいアプローチを提案します。この手法は、不確実でコストのかかる領域に保守的なアプローチを集中させ、安全な領域ではシャープな勾配を保持します。これにより、エージェントは効果的な報酬と安全性のトレードオフを実現します。実験では、USCが安全違反を約40%削減し、報酬は競争力を保ちながら、予測と真のコスト勾配の誤差を約83%減少させることが示されています。これにより、安全性と性能の間の従来のトレードオフを打破し、スケーラブルな安全なRLの道を開きます。