普遍的なビデオ検索に向けて：合成された多モーダルピラミッドカリキュラムによるビデオ埋め込みの一般化

Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

この記事では、ビデオ検索の現行の手法が構造的に不適合であることを指摘し、限られたデータと単一のタスク訓練に基づく評価では普遍的な能力が阻害されると述べています。これを改善するために、ユニバーサルビデオ検索ベンチマーク（UVRB）を設立し、16のデータセットを作成。これは、パフォーマンスの測定だけでなく、タスクやドメイン間の重要な能力ギャップを診断するためのものです。さらに、UVRBの診断に基づいたスケーラブルな合成ワークフローを導入し、高品質なペアを155万組生成し、ビデオ埋め込みのためのセマンティック空間を充実させます。最後に、モダリティピラミッドというカリキュラムを設計し、多様なデータ間の内在する相互関係を活用して、一般ビデオ埋め込み器（GVE）を訓練します。実験の結果、GVEはUVRBにおいて最先端のゼロショット一般化を達成しました。全体として、本研究はビデオ検索の限界を超え、真に普遍的なビデオ検索に向けた実践的な道を提供します。