本研究では、猫と人間の視覚システムの表現の不変性を探求します。猫は独特の眼球解剖学を持ち、その縦に長い瞳孔は待ち伏せ捕食に関連していますが、その影響が視覚表現にどのように現れるかは十分に理解されていません。著者たちは、CNN、教師ありビジョントランスフォーマー、ウィンドウ型トランスフォーマー、及び自己教師ありViTを用いた異種間の視覚表現の整合性を、センタードカーネルアライメントや代表類似性分析を通じて定量化しています。研究結果によると、自己教師ありのViT(B/16)は、猫と人間の視覚システムが整合する最も高いレベルの表現を示し、特に初期ブロックでの特徴が顕著です。本研究は、異なるモデル間の比較を通じて、自主性を持つViTが異種間の視覚計算においてどのように結びつくかに関する新しい神経科学的な仮説を提示しています。