AG-Fusion: 複雑なシーンにおける3D物体検出のための適応型ゲート付きマルチモーダル融合

AG-Fusion: adaptive gated multimodal fusion for 3d object detection in complex scenes

本研究では、複雑なシーンにおける3D物体検出のための新しい手法「Adaptive Gated Fusion（AG-Fusion）」を提案します。従来のマルチモーダルカメラとLiDARの融合技術は、センサーの劣化や環境の影響を受けやすく、その性能が大きく低下することがありました。AG-Fusionは、信頼できるパターンを特定し、選択的にクロスモーダルの知識を統合して、複雑な環境でも頑健に物体を検出できるよう設計されています。本手法では、まず各モダリティの特徴を統合されたBEV空間に射影し、ウィンドウベースの注意メカニズムによって強化します。次に、クロスモーダル注意に基づく適応型ゲート融合モジュールを用いて、これらの特徴を信頼性のあるBEV表現に統合します。また、複雑な掘削機操作シナリオに焦点を当てた新しいデータセット「Excavator3D」を構築し、その性能を評価します。KITTIデータセットにおいて93.92%の精度を達成し、E3Dデータセットではベースラインを24.88%上回る結果を示し、複雑な産業シーンにおける信頼性の低いモーダル情報に対する優れた堅牢性を実証しています。