arXiv cs.LG

基盤モデルの時代におけるクロスビューコード整合による画像ハッシング

Image Hashing via Cross-View Code Alignment in the Age of Foundation Models

http://arxiv.org/abs/2510.27584v2


本記事では、高次元の埋め込み空間における効率的な大規模検索のために、コンパクトで識別力のある表現を提供する手法「クロスビューコード整合(CroVCA)」を紹介します。従来のハッシング手法は、複雑なパイプラインや長い学習時間が課題でしたが、CroVCAはセマンティックに整合したビュー間で一貫したバイナリコードを学習するためのシンプルで統一された原則を提供します。単一のバイナリ交差エントロピー損失が整合性を強制し、コーディングレートの最大化がアンチコラプスの正則化手法として機能します。本研究で開発されたハッシュコーダーは、軽量なMLPハッシングネットワークで、マルチGPU環境下でも効率的なトレーニングが可能です。5エポックで最先端の結果を達成し、特に無監視ハッシングでは2分以内、あるいはImageNet100に対する監視ハッシングも3分以内に完了します。この結果は、CroVCAの効率性、適応性、幅広い適用性を強調しています。