arXiv cs.AI

偽発見率制御による選択的ラベリング

Selective Labeling with False Discovery Rate Control

http://arxiv.org/abs/2510.14581v1


大規模データセットに高品質なラベルを付与することは高コストであり、専門家による大量のアノテーションが必要です。AIモデルはコスト効率の良い代替手段を提供しますが、ラベリングエラーのために品質が損なわれることがあります。既存の選択的ラベリング手法では、AIが一部をラベリングし、人間が残りを担当しますが、AIによるラベリングの質に理論的な保証が欠けているため、エラーが高くなることがあります。本研究では、新しい手法として「コンフォーマルラベリング」を提案し、AIによる予測が信頼できる事例を特定することを目指します。これは偽発見率(FDR)を制御することによって達成されます。具体的には、AIモデルの予測信頼度をキャリブレーション事例と比較し、特定のp値を下回るテストインスタンスを選択することで、AIモデルの予測を信頼性のあるものとして認証します。実験からは、本手法がさまざまなタスクにおいて効果的なFDR制御を達成することが示されています。