この記事では、CLIPのような大規模視覚言語モデル(VLM)の時間認識能力を調査しています。VLMは多様なテキストメタデータを活用し、トレーニングデータの範囲を超えたタスクを解決するオープンボキャブラリー機能を獲得しています。著者らは、10,000以上の画像を含むTIME10kというベンチマークデータセットを導入し、37のVLMの時間認識を新しい方法論で評価しました。その結果、VLMの埋め込み空間内で情報は低次元の非線形多様体に沿って構造化されていることが明らかになりました。この知見に基づき、埋め込み空間から明示的な「タイムライン」表現を導出する方法を提案しており、これにより時間の進行をモデル化し、時間推論タスクを支援します。提案されたタイムラインアプローチは、プロンプトベースのベースラインと比較して競争力のある精度を達成しています。