SMART: ショット認識型マルチモーダルビデオモーメント検索と音声強化マルチモーダル大規模言語モデル

本論文では、特定の時間的セグメントを自然言語クエリに基づいて特定するビデオモーメント検索の新手法「SMART」を紹介しています。従来の手法やマルチモーダル大規模言語モデル（MLLM）においては、時間的理解が粗雑で単一の視覚モダリティに依存しているため、複雑なビデオでの性能が制限されています。SMARTは、音声情報を統合し、ショットレベルの時間構造を活用することで、モード間表現を強化します。特に、「ショット認識トークン圧縮」により、情報量の多いトークンを選別して保持し、冗長性を減少させ、精緻な時間的詳細を保存します。実験では、Charades-STAおよびQVHighlightsデータセットにおいて、SMARTが従来の最先端手法に対して顕著な改善を示したことが確認されました。