arXiv cs.AI

EGSA-PT:エッジ誘導空間注意機構による単眼深度推定と透明物体のセグメンテーションのための漸進的トレーニング

EGSA-PT:Edge-Guided Spatial Attention with Progressive Training for Monocular Depth Estimation and Segmentation of Transparent Objects

http://arxiv.org/abs/2511.14970v1


本研究では、透明物体の認識における課題を解決するため、エッジ誘導空間注意(EGSA)という新しい融合メカニズムを提案しています。EGSAは、セマンティック特徴と幾何学的特徴との融合に境界情報を取り入れることで、タスク間の干渉を軽減し、深度推定の精度向上を図ります。実験では、EGSAはSyn-TODDおよびClearPoseのベンチマークにおいて、最先端手法であるMODESTと比較して深度精度の向上を実現し、透明領域での改善が顕著です。また、RGB画像から得られたエッジから予測された深度画像のエッジへの学習の移行を行う多モーダルな漸進トレーニング戦略も提案しており、豊かなテクスチャ情報を活用した後、より関連性の高い幾何学的コンテンツにシフトすることで、トレーニング時に真の深度データが不要になります。これらのアプローチにより、透明物体の認識におけるEGSAの強固な性能が実証されました。