arXiv cs.LG

経験的福祉最大化と条件付き平均治療効果推定における政策学習のギャップを埋める

Bridging the Gap between Empirical Welfare Maximization and Conditional Average Treatment Effect Estimation in Policy Learning

http://arxiv.org/abs/2510.26723v1


政策学習の目的は、人口の福祉を最大化するために、与えられた共変量に基づいて治療を推奨する政策関数を訓練することです。この研究では、経験的福祉最大化(EWM)アプローチとプラグインアプローチという2つの主要な手法のギャップを埋めています。EWMアプローチは、まず人口福祉の推定器を構築し、その後推定された福祉を最大化することによって政策を訓練する分類問題に類似しています。一方、プラグインアプローチは回帰に基づいており、条件付き平均治療効果(CATE)を推定した後、最高の推定結果を持つ治療を推奨します。本研究は、EWMと最小二乗法の間に正確な同値性があることを証明し、これにより両者が本質的に同じ最適化問題に基づいていることを示します。この同値性を活用し、政策学習のための新たな正則化手法を提案しています。