SafeR-CLIP: 事前学習した知識を保持しつつビジョン-言語モデルにおけるNSFWコンテンツを軽減する

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

SafeR-CLIPは、視覚と言語を統合したモデル、特にCLIPの安全性を向上させるためのフレームワークです。従来の微調整技術では、安全性を高めるためにモデルの一般化性能が著しく低下することが問題とされていました。この問題の原因として、安全でない概念を単一の安全なターゲットに強制的に結びつける厳格な整合戦略が挙げられています。SafeR-CLIPは、位置を考慮したアプローチを採用し、安全でない概念を意味的に最も近い安全な代替品にリダイレクトすることで、表現の変化を最小限に抑えます。この手法により、安全性と性能を両立でき、以前の手法に比べて最大で8.0%のゼロショット精度向上を実現しました。また、NSFW-Capsという新しいベンチマークも提案され、配分の変化に対する安全性の厳密な評価を可能にしています。この研究は、事前学習された表現の幾何学を尊重することが、安全性を維持しつつ性能を犠牲にしない鍵であることを示しています。