この論文では、高リスク領域(教育、雇用、医療など)における限られたリソースの公平な配分方法として、新しい二階層のコンテクスチュアルバンディットフレームワークを提案しています。この手法は、遅延結果や個人の特性と介入の複雑な相互作用を考慮した上で、実世界の動的な集団において機能するよう設計されています。メタレベルでは、公平性と運用制約を満たすためにグループレベルの予算配分を最適化し、ベースレベルでは、観察データを用いてトレーニングされたニューラルネットワークを通じて反応の良い個人を特定します。フィードバックの遅延を明示的にモデル化することで、アルゴリズムは新しいデータが届くたびにその方針を改善し、より敏感かつ適応的な意思決定を可能にします。このアプローチは、教育と労働力開発の実データセットに基づき、累積結果が向上し、遅延構造への適応がより良く、グループ間での公平な分配を確保することを示しています。