SAM 3D: 画像内のすべてを3D化する

本記事では、SAM 3Dという新しい生成モデルを紹介しています。このモデルは、単一の画像から3Dオブジェクトの形状、テクスチャ、配置を予測し、視覚的に確認可能な3D再構築を実現します。自然画像に特化しており、特に視認障害やシーンの混雑が一般的な状況でも高精度を誇ります。人間とモデルのインタラクションを通じて、オブジェクトの形状やテクスチャ、姿勢を注釈するパイプラインを使用し、空前のスケールでデータを収集しています。このデータに基づいた現代的な多段階トレーニングフレームワークを用いることで、合成データと実世界との整合性を持たせ、3Dデータの障壁を打破しました。最新の研究に対して優れた性能を示しており、実際の物体やシーンに関する人間の嗜好テストでは、少なくとも5対1の勝率を達成しています。コードとモデルのウェイト、オンラインデモ、その他の新たなベンチマークも公開予定です。