arXiv cs.AI

LiveStar:実世界のオンラインビデオ理解のためのライブストリーミングアシスタント

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

http://arxiv.org/abs/2511.05299v1


記事では、ライブストリーミングアシスタントであるLiveStarについて説明されており、これはオンラインビデオ理解のための新たな試みです。従来のVideo-LLMsは、連続したフレームを処理し、適切な応答タイミングを決定する際に多くの制約がありますが、LiveStarはこれを改善し、常時プロアクティブに応答します。具体的には、可変長のビデオストリームに対応した逐次的なビデオと言語の調整を行うトレーニング戦略や、応答の沈黙状態を分析して最適なタイミングを決定するフレームワーク、10分以上のビデオにおけるメモリ効率の高いアクセラレーション技術を組み込んでいます。また、15の多様なシナリオと5つの評価タスクを含むOmniStarデータセットを構築し、LiveStarの性能をベンチマークしています。実験の結果、既存のオンラインVideo-LLMsと比較して19.5%のセマンティック正確性の向上と、タイミングの差を18.1%削減しつつ、FPSを12.0%向上させる結果が得られました。