深層学習モデルは脆弱だが、敵対的サンプルはさらに脆弱である

Deep learning models are vulnerable, but adversarial examples are even more vulnerable

この記事では、深層学習のモデルが抱える脆弱性と、敵対的サンプルのさらなる脆弱性について探求しています。敵対的例とクリーンサンプルの間に存在する本質的な違いを理解することで、深層ニューラルネットワーク（DNN）の頑健性と敵対的攻撃に対する検出能力の向上が期待されます。研究により、画像ベースの敵対的サンプルは遮蔽に対して敏感であることが確認され、CIFAR-10データセットを使用して、9種類の攻撃手法（FGSMやPGDなど）を通じて敵対的例が生成されました。この研究では、スライディングマスク信頼性エントロピー（SMCE）を導入し、遮蔽下でのモデルの信頼度の変動を定量化しました。その結果、敵対的サンプルはオリジナルと比較して、信頼度の変動が著しく高いことが示され、スライディングウィンドウマスクに基づく敵対的例検出（SWM-AED）の提案につながりました。最終的に、CIFAR-10におけるさまざまな分類器と攻撃に対する評価は、62%から96.5%の精度を持つ堅牢な性能を示しました。