本研究では、個人と集団の利益を調整するための適応メカニズムの設計に関する課題を扱う。従来の方法は、多様なエージェントの持続的な特性(スキル、嗜好など)をモデル化するのに困難を伴い、また複雑な多エージェントシステムのダイナミクスにも対応しづらいことがあった。特に、実世界でのコストの高い相互作用によるサンプル効率の確保が求められる中、本論文では新しい手法SWM-AP(社会的世界モデル強化メカニズム設計ポリシー学習)を提案している。SWM-APはエージェントの行動を階層的にモデル化した社会的世界モデルを用いてメカニズム設計の効率を高める。シミュレーションや実際の相互作用を通じてエージェントの特性を推測し、相互作用の軌跡から特性ベースのモデルを学習する。このアプローチは、税政策設計やチーム調整、施設立地といった様々な設定で既存の手法よりも優れた結果を示し、累積報酬とサンプル効率の向上を実現している。