ビデオモデルはゼロショット推論者として準備ができているか？MME-CoFベンチマークによる実証研究

Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark

最近のビデオ生成モデルは高忠実度で時間的に一貫性のあるビデオを生成できることから、世界知識をかなりエンコードしていることが示唆されています。本研究では、ビデオモデルが挑戦的な視覚推論シナリオでゼロショット推論者として機能できるかを調査します。特に、人気のあるVeo-3モデルを対象に12の次元で推論挙動を評価し、その強みと欠点を体系的に特徴づけます。評価データは、Chain-of-Frame (CoF) 推論の詳細な評価を可能にするMME-CoFというコンパクトなベンチマークに整理されました。結果として、ビデオモデルは短期的な空間的整合性や局所的な一貫性において有望な推論パターンを示していますが、長期的な因果推論や厳しい幾何学的制約、抽象的な論理においては限界があります。総じて、現在のビデオモデルは単独のゼロショット推論者としては信頼性がありませんが、専用の推論モデルと組み合わせることで有望な視覚エンジンとしての役割が期待されています。