アドホックチームワーク(AHT)は、未知のチームメンバーと協力することを求めるが、この能力は多くの実世界のアプリケーションにおいて重要である。AHTの核心的な課題は、エゴエージェントが未知のチームメイトに即座に適応し、予測できる能力を持つことである。従来の強化学習に基づくアプローチは単一の期待リターンを最適化するため、時にポリシーが単一の支配的行動に収束し、多様な協力パターンを捉えることが難しい。本研究では、PADiffという拡散ベースのアプローチを提案し、エージェントの多様な行動を捉えることで多様な協力モードを解放する。しかし、標準の拡散モデルは、非定常なAHTシナリオで予測し適応する能力に欠ける。この制約を解決するために、チームメイトに関する重要な予測情報をデノイジングプロセスに統合した新たな拡散ベースのポリシーを提案した。三つの協力環境での広範な実験により、PADiffは既存のAHT手法よりも著しく優れていることが示された。