MuM: 多視点マスク画像モデリングによる3Dビジョン

この記事では、自己教師あり学習を用いた3Dビジョンのための新しい手法「MuM」が提案されています。この手法は、同一シーンの複数の視点からの情報をマスクして利用することで、視覚的特徴を効率的に学習します。従来の手法であるCroCoのアプローチを基にしており、マスクオートエンコーディングを拡張することで、より単純でスケーラブルなモデルを実現しました。実験の結果、MuMはフィードフォワード再構成、密画像マッチング、相対ポーズ推定といった下流タスクで、DINOv3やCroCo v2などの従来の最先端の視覚エンコーダーを上回る性能を示しました。