arXiv cs.AI

レバレッジスコアによる幾何学的データ評価

Geometric Data Valuation via Leverage Scores

http://arxiv.org/abs/2511.02100v1


本記事では、データポイントの重要性を評価するための理論的基盤であるシャプレー値の代替手法として、統計的レバレッジスコアに基づいた幾何学的データ評価を提案しています。シャプレー値はコンビニトリアルな測定であり、大規模なデータセットでは計算が困難ですが、レバレッジスコアは各データポイントがデータセットのスパンをどれだけ拡張するかを測ることで、その構造的影響を定量化します。提案手法は、シャプレー評価の公理を満たし、リッジレバレッジスコアに拡張することで、古典的な最適設計基準と自然に結びつくポジティブな限界利益を提供します。また、レバレッジサンプリングに基づくモデルがフルデータ最適解に近い予測リスクを持つことを示し、データ評価と意思決定の質との関連性を明確にしています。さらには、アクティブラーニングの実験を通じて、リッジレバレッジサンプリングが標準的な基準を上回る結果を出すことを実証しています。