arXiv cs.LG

クリーン画像バックドアにおける隠密性と効果のトレードオフを生成トリガー最適化で打破する

Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

http://arxiv.org/abs/2511.07210v1


クリーン画像バックドア攻撃は、トレーニングデータセットにおけるラベル操作のみを用いて深層神経ネットワークを危険にさらす手法であり、セキュリティに敏感なアプリケーションには重大な脅威をもたらします。既存の手法の欠点は、攻撃に成功するための毒性率がクリーン精度(CA)の顕著な低下を引き起こし、隠密性を損なう点です。本論文では、トリガー自体を最適化することでこの精度低下を最小化する新たなパラダイムである「生成クリーン画像バックドア(GCB)」フレームワークを提案します。GCBでは、条件付きInfoGANを使用して自然に発生する画像特徴を特定し、効果的かつ隠密なトリガーとして利用します。これにより、被害者モデルが非常に少数の毒性サンプルからバックドアを学習し、CA低下を1%未満に抑えることが可能になります。GCBの実験結果は、6つのデータセット、5つのアーキテクチャ、および4つのタスクにうまく適応できることを示しています。