エージェントビデオインテリジェンス：高度なビデオ探索と理解のための柔軟なフレームワーク

Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding

本記事では「エージェントビデオインテリジェンス（AVI）」という、新たなフレームワークが提案されています。AVIは視覚認識だけでなく、複雑な推論も行うことを目的としており、人間のビデオ理解を模倣する設計が施されています。このフレームワークの特徴は、（1）Retrieve-Perceive-Reviewという三段階の推論プロセスによって、全体的な探索と焦点を絞った分析を両立させること、（2）エンティティグラフを通じて整理された構造化ビデオ知識ベースを構築し、相互作用環境を形成すること、（3）軽量の基本CVモデルとVLMを活用したオープンソースのモデルアンサンブルにより、高価なモデルへの依存を排除することです。実験では、AVIが競争力のある性能を達成し、優れた解釈性を提供することが示されています。