部分的に関連する動画検索における意味的崩壊の緩和

本論文では、部分的に関連する動画検索（PRVR）の課題に取り組んでいます。PRVRは、テキストクエリに部分的に一致する動画を検索する手法であり、既存の方法では、アノテーションされたテキスト-動画ペアを全てポジティブとし、他をネガティブとして扱うため、同じ動画内の異なるイベントに関するクエリと動画クリップが意味的に崩壊してしまいます。この結果、異なる動画からの意味的に類似したクエリとセグメントが分離される一方、多様なイベントを含む動画の検索パフォーマンスが制限されます。本研究では、まずテキストクエリ間の意味的関係を保持する「テキスト相関保持学習」を提案し、次に動画埋め込みの崩壊を防ぐために、時間スケールにわたる階層的な動画表現を分離する「クロスブランチ動画整列（CBVA）」というコントラスト整列手法を導入します。実験結果は、我々のフレームワークが意味的崩壊を防ぎ、検索精度を大幅に向上させることを示しています。