反意語とパラフレーズを用いた対照的な視覚言語学習

記事では、視覚と言語のモデルにおいて、反意語とパラフレーズに基づく新たな学習手法を提案しています。従来の対照的な言語画像事前学習モデル（CLIP）は、画像とテキストの埋め込みを共有空間に整列させる方法で、画像検索の精度向上に寄与しています。しかし、反意語やパラフレーズされたテキストを評価する際に、意味が大きく変化することが問題となります。この研究は、反意語とパラフレーズを組み合わせた新しい損失関数を提案し、元のテキスト、パラフレーズ、反意語のキャプションから生成されたトレーニングデータを使用して、モデルの性能を向上させています。SemCLIPと名付けられたこの手法は、パラフレーズされたキャプションを元の画像の埋め込みに近づけ、反意語のキャプションはより遠ざけることに成功しています。これにより、Neg-CCのベンチマークでの精度が68.1%から78.1%に改善され、下流タスクにおいてもCLIPより優れた性能を示しています。