EgoExo-Con: 視点不変な動画の時間的理解の探求

本研究では、異なる視点から同じ出来事を捉えた動画に対して、一貫した時間的理解を持つVideo-LLMの可能性を探るために、EgoExo-Conというベンチマークを導入しました。このベンチマークは、自然言語による人間が精練したクエリを伴う、同期した自己中心的および外視的な動画ペアを包括的に評価します。特に、時間的検証と時間的グラウンディングという二つの理解タスクを強調し、視点間の一貫性だけでなく正確性も評価します。分析の結果、既存のVideo-LLMには二つの重大な制限が見つかりました。一つは、モデルが一貫性を保つのが難しく、単一視点のパフォーマンスと比べて大きく劣ることです。もう一つは、同時に同期した両視点の動画で微調整されると一貫性が向上するものの、単一視点のモデルに対して劣ることです。この改善のために、視点固有の時間的推論を強化しながら、一貫した理解を促進する新しい強化学習フレームワークView-GRPOを提案します。