視覚言語モデルにおけるプロンプト学習の増幅バイアスの分離

この記事では、視覚と言語の大規模モデルにおけるプロンプト学習の増幅バイアスに関する研究が紹介されています。最近の研究では、手作りのプロンプトを学習可能なベクトルに置き換えることで、ゼロショット学習タスクのパフォーマンスが向上することが示されていますが、これらの手法はまったく新しいカテゴリへの一般化が難しいという課題があります。本研究では、画像レベルの増強、特に属性特異的な変化を導入した画像増強がプロンプト学習をどう支援し、向上させるかを探求しています。また、既存の手法が意味的に重要な視覚的特徴に焦点を当てたプロンプトの学習に対する明示的なガイダンスを提供していないことも指摘しています。これに対処するために、新しい手法「AAPL」を提案し、増強によって導入された表面的な視覚的変化とクラス関連の意味表現を分離し、学習されたプロンプトがターゲットカテゴリに沿った視覚的に識別可能な特徴に集中できるようにします。実験結果は、AAPLが既存の手法に対して一貫して優れたパフォーマンスを示すことを示しています。