arXiv cs.LG

デバイアスされたゼロショット認識のための表現レベルの反事実キャリブレーション

Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition

http://arxiv.org/abs/2510.26466v1


本記事では、視覚と言語のモデルにおけるオブジェクトとコンテキストの短絡が、ゼロショット認識の信頼性を脅かす課題を取り上げています。この問題を因果推論の観点から再定義し、異なる環境に存在するオブジェクトがあった場合の予測がどうなるかを考察します。CLIPの表現空間内でオブジェクトと背景の期待値を推定し、外部データセットやテキストからの説明を用いて反事実的な埋め込みを合成します。これにより、オブジェクトと背景の影響を分離しつつ有益なオブジェクト-コンテキストの相互作用を保持し、誤ったスコアを軽減します。この手法は再訓練やプロンプト設計なしにコンテキスト感受性ベンチマークにおける精度を大幅に向上させ、新たなゼロショットの性能を確立します。簡便なアプローチでデバイアスと信頼性のあるマルチモーダル推論を実現するのが本研究の目的です。