DSSmoothing: 二重空間スムージングによる事前学習言語モデルの認定データセット所有権確認に向けて

DSSmoothing: Toward Certified Dataset Ownership Verification for Pre-trained Language Models via Dual-Space Smoothing

本論文では、DSSmoothingという新しい手法を提案し、事前学習言語モデル（PLM）のデータセット所有権確認（DOV）を認定する方法について説明しています。大規模なウェブスケールのデータセットはPLMの急速な発展を促していますが、無許可のデータ使用は著作権の懸念を引き起こしています。従来のDOV手法は、水印が推論中に安定すると仮定していますが、この仮定は実際のノイズや敵対的な摂動の下でしばしば失敗します。DSSmoothingは、埋め込み空間に連続的な摂動を導入し、意味の堅牢性を捉え、順序の堅牢性を確保するためにトークンの再配置を行います。この手法は、2つの段階から成り立ち、最初の段階では、トリガーが協力的に埋め込まれ、耐水印データセットを生成します。次に、検証中にランダムスムージングを適用して、疑わしいモデルの水印の堅牢性を計算します。実験により、DSSmoothingは安定した確認性能を実現し、潜在的な適応型攻撃に対して堅牢であることが示されています。