NLPにおけるステガノグラフィックバックドア攻撃：超低毒化と防御回避

本論文では、自然言語処理(NLP)におけるバックドア攻撃の一種、ステガノグラフィックバックドア攻撃について述べています。従来の攻撃手法は、モデルが特定のセマンティックトリガーに反応する形で機能する難しさがありましたが、新たに提案されたSteganoBackdoorは、意味を持つトリガーを使って高い攻撃成功率を実現しています。この手法は、無害なプロパティを生かしながらデータを最適化し、バックドアペイロードを埋め込むことで、流暢さを保ちつつトリガーの類似性を持たないようにしています。実験の結果、99%を超える攻撃成功率を達成し、他の手法よりもはるかに低いデータ毒化率で防御を回避することができるとしています。この研究は、現在の防御手法における盲点を明らかにし、即時の対策が必要であると強調しています。