Depth Anything 3: あらゆる視点からの視覚空間の回復

深度推定モデル「Depth Anything 3（DA3）」は、任意の視覚入力から一貫した空間的幾何学を予測します。DA3は、特別なアーキテクチャや複雑なタスクを必要とせず、単純なトランスフォーマーを用いて高さのある深度-ray表現を訓練することで、高精度のカメラ姿勢推定や幾何学的正確性を実現しました。このモデルは、従来のDepth Anything 2（DA2）と同等の詳細度を達成し、全てのタスクで新しい最先端技術を確立しました。特に、大規模環境でのドリフトを軽減し、単眼深度推定においてもDA2を上回りました。また、多視点から得た画像を用いた自動車環境の理解を強化する能力も示しています。