本論文では、リアルタイムの空間認識をエッジデバイス上で実現するため、効率的なマルチタスクモデル「Multi-Mono-Hydra(M2H)」を提案しています。このフレームワークは、単眼画像からのセマンティックセグメンテーション、深度、エッジ、サーフェスノーマルの推定に特化しています。従来の手法が独立した単一タスクモデルや共通のエンコーダ・デコーダアーキテクチャに依存するのに対し、M2Hはウィンドウベースのクロスタスクアテンションモジュールを導入し、構造化された特徴の交換を可能にします。これにより、タスク固有の詳細が保持され、タスク間の予測の一貫性が改善されます。また、軽量なViTベースのDINOv2バックボーンを使用し、リアルタイムデプロイの最適化が図られています。NYUDv2などのデータセットでの包括的な評価では、M2Hが最先端のマルチタスクモデルを上回り、リアルワールドデータにおいてもその効果が確認されています。