SAM 3: 概念を用いた任意のセグメンテーション

本記事では、Segment Anything Model (SAM) 3について説明しています。SAM 3は、画像や動画内のオブジェクトを概念のプロンプトに基づいて検出し、セグメンテーションし、追跡するための統一モデルです。プロンプトは短い名詞句や画像の例を含みます。Promptable Concept Segmentation (PCS)はこれらのプロンプトを使用して一致するオブジェクトのセグメンテーションマスクとユニークな識別子を返します。このモデルは、4百万のユニークな概念ラベルを持つ高品質なデータセットを生成するスケーラブルなデータエンジンを使用し、画像や動画内の認識精度を大幅に向上させています。また、SAM 3は既存のシステムに比べ、画像と動画のPCSの精度を2倍に向上させ、視覚的セグメンテーションタスクにおいても過去のSAMの能力を改善しています。さらに、SAM 3はオープンソースとして公開され、新しいSegment Anything with Concepts (SA-Co)ベンチマークも提供されています。