TimeScope: あなたのビデオ大型マルチモーダルモデルはどれくらい長く持続できるか？

TimeScopeは、ビデオにおける長期的な理解を測定するためのオープンソースベンチマークです。1分から8時間のビデオに短い「ニードル」クリップを追加し、ローカライズされた情報検索、情報の統合、細かい時間的認識の3つのスキルを評価します。近年、マルチモーダルAIの進展により、長時間のビデオを理解できるモデルが登場しましたが、多くの先進的なモデルは真の時間的理解に苦しんでいます。TimeScopeは、このギャップを埋めるために設計されており、モデルが長いビデオの中で具体的な短いセグメントを特定できるか、複数の時間軸からの情報を集約できるか、密なマルチフレームサンプリングを必要とする動きやイベントを分析できるかを評価します。これにより、ビデオ理解の能力を深く探ることができる新しい基準を促進します。