ポーズ推定がなくても問題なし：モノラル深度推定のためのポーズ非依存かつインスタンス認識型テスト時適応

No Pose Estimation? No Problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation

本記事では、モノラル深度推定（MDE）における新たなテスト時適応（TTA）手法、PITTAを提案しています。MDEはRGB画像からピクセルごとの深度を推定する技術であり、さまざまなAIアプリケーションで重要な役割を果たします。従来のTTA方法は、動的で多様な環境では効果が薄く、課題が残されていました。PITTAでは、カメラのポーズ情報を必要とせず、ポーズに依存しない適応を実現するアプローチと、セグメンテーションマスクから動的オブジェクトのインスタンスマスクを抽出する戦略が組み込まれています。また、単一のモノラル画像と深度マップに対する効果的なエッジ抽出手法も提案されています。実験結果は、DrivingStereoおよびWaymoデータセットにおいて、PITTAが従来の最先端技術を上回る性能を示したことを示しています。