半無限安全強化学習 (SI-safe RL) は、安全要件を維持しつつ長期的なパフォーマンスを最適化することを目的としています。この研究では、交換ポリシー最適化 (EPO) と呼ばれるアルゴリズムフレームワークを提案しており、これは既存の制約のセットを用いて安全強化学習のサブ問題を反復的に解決し、ポリシーのパフォーマンスを最適化します。EPOは、違反が予め定められた許容範囲を超える制約を追加してポリシーを改良し、ラグランジュ乗数がゼロの制約をポリシー更新後に削除するという交換ルールを用いています。この手法により、作業セットの制御不能な増大を防ぎ、効果的なポリシー訓練をサポートします。理論分析により、EPOを通じて訓練された戦略は、設定された制約違反が指定した範囲内に収まる限りで、最適解に匹敵するパフォーマンスを実現できることが示されています。