この記事では、基盤モデルの進展に伴い、効率的な大規模画像検索のための画像ハッシュ化手法「CroVCA」(Cross-View Code Alignment)が提案されています。従来の手法は複雑でトレーニングに時間を要しますが、CroVCAは単純な二値交差エントロピー損失を用いてコードの整合性を強制しつつ、コーディングレート最大化で多様なコードを促進します。軽量なMLPネットワーク「HashCoder」を設計することで、効率的な学習を実現し、わずか5エポックのトレーニングで最先端の結果を達成します。また、特にCOCOデータセットやImageNet100データセットでの無監督・監督ハッシュ化において、短時間で結果を出しています。これにより、CroVCAの効率性と適応性が強調され、広範な応用が可能であることが示されています。