この論文では、自己対戦強化学習が競争的なマルチエージェントゲームにおいて複雑な戦略的行動を学ぶ上での成功を示す一方で、連続的な意思決定空間においては依然として課題が残ることについて述べています。従来の方法では、ナッシュ均衡に収束するのが遅くなるか、全く収束しないことがあり、これが見えない対戦相手による戦略的悪用を招く要因となっています。これに対処するために、著者らはDiffFPという擬似ゲームフレームワークを提案し、見えない対戦相手に対する最適な応答を推定しつつ、頑健で多様な行動ポリシーを学習します。拡散ポリシーを用いて最適応答を近似することで、多様な戦略を習得します。実験結果は、提案された方法が複雑なマルチエージェント環境でも頑健で、基準となる強化学習ポリシーに対して大幅に優れた成果を上げることを示しています。特に、収束速度が最大3倍、成功率が平均30倍向上することが報告されています。