時空間ビデオグラウンディング(STVG)は、自然言語による説明に基づいてビデオ内の対象物を特定する技術です。しかし、最近のマルチモーダル大規模言語モデルの進展にもかかわらず、現行のモデルは多様な物体や複雑なクエリを伴う実世界の要求に応えられていません。その主な理由は、現在の基準の範囲が限られているため、モデルがカテゴリバイアスや単純化された推論を示し、言語的な堅牢性が低下していることです。これに対応するため、著者らは81のカテゴリを網羅する3,475本のビデオからなる包括的な基準「OmniGround」を提案します。また、精度の高いラベル付けのために多方向トラッキングとインテリジェントエラー修正を組み合わせたForward-Backward-Refinementアノテーションパイプラインや、データセットの質を四つの補完的次元で定量化する評価フレームワーク「DeepSTG」を紹介します。評価の結果、複雑な実世界のシーンでのパフォーマンスが10.4%低下することが確認され、特に小さな物体や遮蔽された物体においてその傾向が顕著である点が指摘されています。