SLIP: 構造認識型言語-画像事前学習による視覚と言語の整合性

この記事では、視覚と言語の事前学習(VLP)の新手法「SLIP」について述べています。従来の手法は画像とテキストのペアを孤立したトレーニング例として扱っていましたが、SLIPは人間が知識を関係性の認知マップとしてコーディングするという神経科学的証拠に基づいています。SLIPは構造的対照損失を統合し、隣接するエンティティ間の関係をモデル化することで、モダリティを整合させます。さらに、大規模なアマゾンの製品共同購入マルチモーダルグラフデータセットを構築し、構造的クロスモダリティの監視を実現しました。実験結果では、SLIPがCLIPを上回るパフォーマンスを示し、クロスモーダル整合性のための関係的監視の重要性を立証しました。