一般化された不一致測度による公正なベイズデータ選択

本論文では、機械学習モデルが高リスクのアプリケーションに展開される際の公平性の重要性が増している背景を踏まえ、公平性を考慮したベイズデータ選択フレームワークを提案しています。既存の公平性を意識した方法がモデルレベルで介入するのに対し、本研究は、モデルパラメータとサンプル重みのグループ特有の事後分布を共有の中心分布と整合させることにより、公平性を確保します。Wasserstein距離や最大平均不一致、$f$-発散などの様々な分布的不一致測度を利用できるため、明示的な公平性制約なしで幾何学的な制御が可能です。このデータ中心のアプローチは、トレーニングデータにおけるグループ特有のバイアスを軽減し、下流タスクにおける公平性を向上させます。実験結果は、提案手法が従来のデータ選択およびモデルベースの公平性手法よりも、常に公平性と精度の両面で優れていることを示しています。