オフライン文脈バンディットは、オンラインの相互作用なしに過去のデータからポリシーを学習する手法です。しかし、一般的な報酬最適化は、グループ間の報酬の不均一性を助長する可能性があり、特にリソースが限られた状況では公平性の懸念が生じます。本研究では、オフライン文脈バンディットにおいてグループ感度を考慮した公平性制約を取り入れ、ポリシー学習中に発生する可能性のあるグループ間の報酬の不均一性を軽減することを目的としています。具体的には、ユーザー定義の閾値内に報酬の不均一性を制約するか、最適化中にこれを最小化します。さらに、グループごとの報酬差異を考慮したオフポリシーの勾配ベース最適化手法を提案します。訓練時には倍ロバスト推定器を使用し、ポリシー最適化に対する収束保証も提供します。実験結果によって、本手法が報酬の不均一性を効果的に削減しつつ、全体的なパフォーマンスを維持できることが示されています。