画像選好モデルを利用した移転可能なブラックボックスワンショットの透かし偽造

Transferable Black-Box One-Shot Forging of Watermarks via Image Preference Models

近年、デジタルコンテンツの透かし技術に対する関心が高まっており、AI生成コンテンツの増加に伴い、それらの真正性や帰属を保証する役割が重要視されています。本研究では、一般的に用いられる事後透かし処理の文脈で、透かしの偽造方法を探求します。まず、透かしが施されているかどうかを評価するためのプレファレンスモデルを紹介し、このモデルは実際の透かしを用いずに生成された画像を使って訓練されます。次に、入力画像を逆伝播によって最適化することで、透かしを除去・偽造する能力を示します。この技術は、単一の透かし画像のみを必要とし、透かし生成モデルの知識も不要です。最後に、提案手法を様々な事後透かしモデルで評価し、我々のアプローチが透かしを効果的に偽造できることを示し、既存の透かし技術の安全性に疑問を投げかけます。