強化学習における生存性保持シールドのための適応GR(1)仕様修正

Adaptive GR(1) Specification Repair for Liveness-Preserving Shielding in Reinforcement Learning

この記事では、強化学習（RL）における安全性を確保するためのシールド機構に関する新しい枠組みを提案しています。従来のシールドは静的であり、固定された論理仕様に基づいているため、環境の仮定が破られた際に適応できないという問題がありました。本研究では、初めての適応型シールドフレームワークを開発し、GR(1)仕様に基づいて構築しました。この方法は、実行時に環境の仮定違反を検出し、帰納論理プログラミング（ILP）を用いてオンラインでGR(1)仕様を自動的に修正します。これにより、シールドが進化し、生存性の確保や目標の緩和が必要な場合にのみ行われることが保証されます。具体的には、MinepumpとAtari Seaquestの2つのケーススタディが示され、適応型シールドを装備したRLエージェントが静的シールドと比較して、ほぼ最適な報酬を維持し、論理的一貫性を完璧に保つことを示しています。