arXiv cs.AI

高度なサンプリングによる信頼性が高く迅速な影響関数

Faithful and Fast Influence Function via Advanced Sampling

http://arxiv.org/abs/2510.26776v1


本稿では、ブラックボックスモデルにおけるトレーニングデータの影響を説明する手法として、影響関数(IF)の利用を提案しています。影響関数では、勾配とヘッセ行列を用いますが、全データセットに対するヘッセ行列の計算は資源を多く消費するため、実行可能な代替手段が必要です。従来のアプローチではトレーニングデータの小さなサンプルを無作為に選ぶ方法が用いられますが、この方法は高い分散のため、IFの推定値が一貫性を欠くことが一般的です。本研究では、特徴量やロジットに基づく2つの高度なサンプリング技術を提案し、データセット全体を小さく、且つ代表性のあるサンプルで選択することで、IF推定の精度を向上させました。さらに、クラス削除実験を通じて、モデルが削除されたクラスを忘れる効果をF1スコアで評価し、計算時間を30.1%短縮し、メモリ使用量を42.2%削減、またはベースラインと比較してF1スコアを2.5%改善することに成功しました。