対抗的プロンプトを用いたコード補完モデルの効果的なメンバーシップ推論

Effective Code Membership Inference for Code Completion Models via Adversarial Prompts

本記事では、コード補完モデルに対するメンバーシップ推論攻撃（MIA）の新手法「AdvPrompt-MIA」を提案しています。この手法は、訓練データに含まれるコードスニペットの推測を行い、プライバシーリスクを評価する有効な手段です。従来のMIAは高価な代替モデルや手動で設計されたヒューリスティックルールに依存しており、過剰パラメータ化されたコード言語モデルの微妙な記憶パターンを捉える能力には限界がありました。AdvPrompt-MIAはコード特有の対抗的擾乱を深層学習と組み合わせ、被害者モデルの出力に変動を誘発するプロンプトを設計します。この出力を真の完成と比較することで特徴ベクトルを構築し、メンバーと非メンバーのサンプルを自動的に分類することが可能です。広く使用されているモデル（Code Llama 7B）での評価により、この手法が最先端の基準を一貫して上回り、最大102%のAUC向上を示したことが示されています。また、異なるモデルやデータセットへの強い転送可能性も確認されており、実用性と一般化可能性が際立っています。