arXiv cs.AI

エージェントビデオインテリジェンス:高度なビデオ探索と理解のための柔軟なフレームワーク

Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding

http://arxiv.org/abs/2511.14446v1


本記事では「エージェントビデオインテリジェンス(AVI)」という、新たなフレームワークが提案されています。AVIは視覚認識だけでなく、複雑な推論も行うことを目的としており、人間のビデオ理解を模倣する設計が施されています。このフレームワークの特徴は、(1)Retrieve-Perceive-Reviewという三段階の推論プロセスによって、全体的な探索と焦点を絞った分析を両立させること、(2)エンティティグラフを通じて整理された構造化ビデオ知識ベースを構築し、相互作用環境を形成すること、(3)軽量の基本CVモデルとVLMを活用したオープンソースのモデルアンサンブルにより、高価なモデルへの依存を排除することです。実験では、AVIが競争力のある性能を達成し、優れた解釈性を提供することが示されています。