TimeViper: 効率的な長動画理解のためのハイブリッドMamba-Transformerビジョン・言語モデル

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

本記事では、長動画理解の課題に対応するために設計されたハイブリッドビジョン・言語モデル「TimeViper」を紹介しています。長動画を処理するには、効率的なモデル構造と広範な時間的文脈を扱うための効果的なメカニズムが必要です。TimeViperは、状態空間モデルの効率性と注意メカニズムの表現力を組み合わせたハイブリッドMamba-Transformerを採用しています。この設計により、視覚トークンからテキストトークンへの情報の流れが明らかになり、視覚トークンが冗長となる現象が観察されます。これを受けて、TransVと呼ばれるトークン情報転送モジュールを提案し、視覚トークンを指示トークンに圧縮しつつ、マルチモーダル理解を維持することが可能です。この設計により、TimeViperは1時間を超える10,000フレーム以上の動画を処理する能力を持ち、実験では最先端モデルと競合しつつ、フレーム数を拡張できることが示されています。