MT-Video-Bench: マルチターン対話におけるマルチモーダルLLM評価のための包括的な動画理解ベンチマーク

MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

MT-Video-Benchは、マルチモーダル大型言語モデル（MLLM）の評価のために開発された動画理解の包括的ベンチマークです。従来の評価基準は単一の質問応答に限定され、実際のマルチターン対話の複雑さを考慮していませんでした。MT-Video-Benchでは、視覚的理解と対話性に焦点を当てた6つの主要な能力を評価し、987件の多様なマルチターン対話を用意しました。この評価は、インタラクティブなスポーツ分析や動画を基にしたインテリジェントチュータリングなど、実世界のアプリケーションに厳密に沿って設計されています。MT-Video-Benchを使用して、様々な先端MLLMの性能を評価し、多くのモデルがマルチターン動画対話への対応において有意なパフォーマンスの差と限界を示すことを明らかにしました。このベンチマークは今後の研究を促進するために公開される予定です。