SoK: 最終防衛線：バックドア防御評価について

バックドア攻撃は、悪意のある入力によって起動できる隠れた脆弱性を埋め込むことで、ディープラーニングモデルに大きな脅威を与えます。この記事では、2018年から2025年に発表された183件のバックドア防御に関する論文を対象に広範な文献レビューと実証評価を行いました。その結果、実験セットアップ、評価指標、脅威モデルの仮定において文献内での重要な不一致が確認されました。MNIST、CIFAR-100、ImageNet-1Kの3つのデータセット、4つのモデルアーキテクチャ、および16の代表的な防御策を用いて、3000以上の実験を実施したところ、評価セットアップによって防御の効果が大きく異なることが示されました。現在の評価プラクティスにおける重要なギャップを特定し、計算コストや善良な条件下での挙動の不十分な報告、ハイパーパラメータ選択のバイアス、実験の不完全性などについて具体的な課題と今後の評価改善に向けた提案を提供します。本研究は、研究者や業界の実務者が防御の開発、評価、および導入に役立つ実用的な知見を得ることを目指しています。