一つの瞬間では足りない：クロスモーメント相互作用を用いたマルチモーメント検索

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions

この記事では、既存の瞬間検索（MR）方法が単一の瞬間検索（SMR）に焦点を当てている一方で、実際のアプリケーションでは一つのクエリが複数の関連する瞬間に対応することを指摘しています。このため、現在のデータセットや方法がビデオの時間的グラウンディングに十分でないことが述べられています。著者たちはQVHighlightsマルチモーメントデータセット（QV-M^2）を導入し、マルチモーメント検索（MMR）のために新しい評価指標を提案しました。QV-M^2は、6,384のビデオセグメントをカバーする2,212のアノテーションで構成されています。彼らのフレームワークFlashMMRは、モーメントの境界を精緻化するためのマルチモーメントポスト検証モジュールを提案しています。結果として、QV-M^2はMMRモデルの訓練と評価のための効果的なベンチマークとして機能し、FlashMMRは強力なベースラインを提供しています。この研究は、よりリアルで挑戦的なビデオ時間的グラウンディングのシナリオにおける研究の進展の基盤を築いています。