この記事では、人間の認知におけるオブジェクトバインディングの重要性を考察しています。オブジェクトバインディングとは、脳が物体を構成する多くの特徴を結びつけ、一貫した全体として認識する能力のことです。著者たちは、大規模な事前学習ビジョントランスフォーマー(ViT)が、オブジェクトに関連するパッチを認識することで、この能力を自然に獲得できるかを検証しました。自社の研究により、ViTはパッチが同じオブジェクトに属するかどうかを分別する能力(IsSameObject)を持ち、この能力が自己教師あり学習済みのViT(DINO, MAE, CLIP)においては信頼性高く現れることを発見しました。一方、ImageNetでの教師あり学習モデルでは、この能力は著しく弱いことが示され、特定の事前学習目標によって獲得された能力であることが示唆されています。この記事は、ViTがオブジェクトバインディングを欠いているという見解に挑戦し、結合の知識がどのように自然に浮かび上がるかを強調しています。