arXiv cs.AI

FoCLIP:CLIPベースの画像操作と検出のための特徴空間ミスアライメントフレームワーク

FoCLIP: A Feature-Space Misalignment Framework for CLIP-Based Image Manipulation and Detection

http://arxiv.org/abs/2511.06947v1


本研究では、CLIPに基づく画像品質評価メトリックであるCLIPscoreの脆弱性を改善するために、FoCLIPという特徴空間ミスアライメントフレームワークを提案しています。FoCLIPは、確率的勾配降下法に基づいて構築され、機能アラインメント、スコア分布バランス、ピクセルガード正則化の3つの主要なコンポーネントを統合し、CLIPscoreの予測を最適化します。研究では、芸術作品のプロンプトやImageNetのサブセットを用いて、最適化された画像がCLIPscoreを大幅に改善しながら高い視覚的忠実性を保持できることを実証しました。また、グレースケール変換が特徴の劣化を引き起こし、CLIPscoreが低下することを明らかにし、カラー チャンネルの感度に基づく改ざん検出メカニズムを提案しました。このメカニズムは、基準データセットにおいて91%の精度を達成しました。この研究は、CLIPベースのマルチモーダルシステムにおける機能ミスアライメントの実用的な道筋を提供します。