深層強化学習ポリシーの透かしのための連続トリガー

本論文では、深層強化学習（DRL）ポリシーの透かし技術に関する新しい仕組みを提案しています。この仕組みは、ポリシーの性能に最小限の影響を与える形で、特定の状態遷移のシーケンスに対する応答としてユニークな識別子をポリシーに統合するメカニズムを提供します。この透かし技術は、特許ポリシーの無許可複製の検出や、認可された主体によるDRL活動の優雅な中断または終了を可能にすることに応用されます。研究では、Cartpole環境でトレーニングされたDQNポリシーの透かしの実現可能性を実験的に評価しています。