本論文では、ブロックベースの画像特徴表現を生成する手法「BRIXEL」が提案されており、これは近年のDINOv3モデルファミリーに基づくものです。DINOv3は非常に高解像度の入力画像に基づいてダウンストリームタスクで優れたパフォーマンスを発揮していますが、計算コストが高いという課題があります。BRIXELの特徴は、知識蒸留のアプローチを用い、学生ネットワークが自身の特徴マップを高解像度で再現するように学習する点です。この手法は単純であるにもかかわらず、固定解像度時にはDINOv3モデルよりも大幅に性能を向上させることに成功しています。さらに、BRIXELは教師ネットワークと非常に類似した特徴マップを生成し、計算コストを削減することができます。