UnSAMv2: セルフスーパーバイズドラーニングによりあらゆる粒度でのセグメンテーションを実現

Segment Anything Model (SAM) の家族は広く使われるビジョン基盤モデルですが、セグメンテーションの粒度を制御する能力には限界があります。多くのユーザーは、望ましい詳細レベルを実現するために手動で結果を修正する必要がありますが、そのプロセスは曖昧です。この制限に対処するために、UnSAMv2を導入しました。これにより、人間の注釈なしで任意の粒度でのセグメンテーションが可能になります。UnSAMv2は、マスクと粒度のペアを探索し、セグメンテーションスケールを精密に調整するための新しい粒度制御埋め込みを導入しています。わずか6000枚のラベルなし画像と0.02%の追加パラメータで、UnSAMv2はSAM-2を大幅に改善し、インタラクティブな全画像および動画のセグメンテーションタスクで任意の粒度を達成します。11を超えるベンチマークで評価した結果、精度が向上しました。この方法は、少量のラベルなしデータにより、視覚基盤モデルの潜在能力を引き出すことを示しています。