効率的なストリーミングビデオ-LLMsのための再帰的注意に基づくトークン選択

本研究では、ビデオLarge Language Models（Video-LLMs）がクエリに回答する際に、完全な動画へのアクセスがないストリーミング条件で直面する課題に対処する手法を提案します。具体的には、1）重要性が低い視覚トークンの約95%を削除しながら、効率的なトークン選択を行うための注意に基づくアプローチ、2）過去に選択されたトークンの再帰的処理を用いて各ビデオクリップの一貫した理解を得る方法、3）キャプションに基づく質問応答メカニズムを採用し、軽量かつ精度の高い応答を実現します。これにより、ストリーミングビデオのベンチマークで最先端のパフォーマンスを達成し、効率と効果のバランスを保つことができました。