MVU-Eval: マルチモーダルLLMのためのマルチビデオ理解評価に向けて

本記事では、マルチモーダル大規模言語モデル（MLLM）の能力を視覚モダリティに拡張するMVU-Evalという新しい評価ベンチマークを提案しています。従来の評価基準が単一ビデオに限られている中、MVU-Evalは1,824の厳選された質問-回答ペアを用いて、4,959の多様なビデオから得られた8つの核心的な能力を評価します。この能力の評価は、スポーツ分析や自律運転といった現実のアプリケーションに密接に関連しており、基礎的な認識タスクから高次の推論タスクまでを含みます。また、様々な最先端モデルを評価した結果、現在のMLLMが複数のビデオを理解する能力において著しい性能の違いや限界があることが明らかになりました。MVU-Evalは今後の研究を促進するために公開される予定です。