arXiv cs.AI

StreamingTOM:効率的なビデオ理解のためのストリーミングトークン圧縮

StreamingTOM: Streaming Token Compression for Efficient Video Understanding

http://arxiv.org/abs/2510.18269v1


本論文では、StreamingTOMと呼ばれる新しいフレームワークを提案しています。このフレームワークは、ストリーミングビデオにおける言語モデルの処理において、因果性やトークンの増加という二つの基本的な制約を解決します。具体的には、因果的時間削減により、各フレームごとのトークン処理を効率化し、重要度に基づいたトークン選択を行うことで、前処理時のコストを大幅に削減します。また、オンライン量子化メモリを使用して、トークンを4ビット形式で保存し、必要に応じて関連するトークンを取得することで、ストリーミングの長さに依存しない効率的なキャッシュ管理を実現します。実験では、従来の最先端技術と比較して、15.7倍のキャッシュ圧縮、1.2倍の低ピークメモリ、2倍の高速な推論性能を示しています。StreamingTOMは、トレーニングなしで最先端の精度を維持し、効率的なビデオ理解における実用的な利点を強調しています。