arXiv cs.AI

ベイズデータスケジューラによる大規模言語モデルの有害なファインチューニングに対する適応的防御

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

http://arxiv.org/abs/2510.27172v1


本論文では、大規模言語モデルのファインチューニングの際、有害な影響を及ぼすリスクに対する防御策として「ベイズデータスケジューラ(BDS)」を提案しています。従来の防御手法では、未知の攻撃を予測することが難しいため、攻撃シミュレーションの範囲に限界があり、さまざまな攻撃設定に適応する能力も不足していました。BDSは、ファインチューニングデータと整合性のあるデータの安全属性を条件としたベイズ推論として有害なファインチューニング防御を定式化します。具体的には、サンプルから得られた安全属性でデータに重みを付けることで、有害データの影響を軽減します。さらに、効率的なデータ転送を可能にするための神経スケジューラを導入し、リトレーニングなしで新しいデータへの適応を実現します。多様な攻撃および防御設定において、初めての成果を示しました。