線形タスク分解によるバックドア学習解除

本研究では、基盤モデルが多様なタスクに対して広範な一般化を可能にする一方で、悪意のある干渉やターゲットバックドア攻撃に対して脆弱であることに着目しています。大規模なモデルの特性により、安全性を確保するための再訓練が困難なため、バックドアを介して悪影響を及ぼすモデルからの除去が課題となっています。既存の方法は高コストなファインチューニングに依存しており、他の無関係なタスクの性能を低下させることが多いです。本研究では、バックドアがモデルの重み空間にどのようにエンコードされているかを調査し、無害なタスクと分離されていることを特定しました。この分離を活用し、バックドアの影響を最小限に抑えつつ排除するシンプルな学習解除手法を提案します。実験結果に基づき、攻撃者の知識がある場合でも、96%のクリーン精度を維持しながら、ほぼ完全な学習解除を達成しました。未知の攻撃に対しても効果的にバックドアを解除できることを示しています。