本稿では、部分的な観測下における追跡・回避ゲーム(PEGs)に対する最悪ケースロバストリアルタイム追跡戦略(R2PS)を提案しています。PEGsでは、追跡者が回避者の位置について不完全な情報しか持たない場合、リアルタイムで適用可能な追跡戦略が不足しています。本研究では、まず従来の動的計画法(DP)が、回避者の非同期的な動きに対しても最適性を維持することを証明します。次に、回避者の可能な位置に関する信念保持メカニズムを提案し、DP追跡戦略を部分的に観測可能な設定に拡張します。最後に、信念保持を最先端の均衡方針一般化(EPG)フレームワークに組み込み、非同期移動DP回避戦略に対するクロスグラフ強化学習を通じてリアルタイムの追跡者ポリシーを達成します。この強化学習により、提案された方針は未見の実世界のグラフ構造に対しても強靭なゼロショット一般化を達成し、既存のゲーム強化学習アプローチでテストグラフに直接訓練された方針を一貫して上回る性能を示します。