敵を味方に変える: マルチモーダルEコマース製品検索のためのタイポグラフィ攻撃の逆転

Turning Adversaries into Allies: Reversing Typographic Attacks for Multimodal E-Commerce Product Retrieval

本研究では、Eコマースプラットフォームにおけるマルチモーダル製品検索システムが、視覚的信号とテキスト信号を効果的に組み合わせることに依存していると述べています。特に、CLIPのような視覚と言語のモデルが、画像に埋め込まれた誤解を招くテキストによって予測を歪めるタイポグラフィ攻撃に脆弱であることが明らかにされています。この問題に対処するために、関連するテキストコンテンツを製品画像に直接表示する新たな手法を提案し、視覚的テキスト圧縮を行うことで画像とテキストの一致を強化し、マルチモーダル製品検索の性能を向上させることを目指しています。実験では、スニーカー、ハンドバッグ、トレーディングカードの3つの特定カテゴリのEコマースデータセットを使用し、最新の視覚モデルに対して一貫した精度向上を示しています。研究結果は、製品メタデータを視覚的に描画することが、Eコマースにおけるゼロショットマルチモーダル検索の効果的な強化手段であることを示唆しています。