arXiv cs.AI

LagMemo: 多モーダルオープンボキャブラリ多目標視覚ナビゲーションのための言語3Dガウススプラッティングメモリ

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

http://arxiv.org/abs/2510.24118v1


LagMemoは、視覚情報を用いて指定された目標へのナビゲーションを行うためのシステムで、従来の視覚ナビゲーション技術が抱える単一目標および閉じたセットの制約を克服します。このシステムは、マルチモーダルかつオープンボキャブラリの目標クエリを用いた多目標視覚ナビゲーションに対応しており、言語に基づいた3Dガウススプラッティングメモリを利用しています。探査中、LagMemoは統一された3D言語メモリを構築し、タスク目標に応じて候補目標位置を推測し、地元の知覚に基づく検証メカニズムを統合することで、ナビゲーション中の目標の動的マッチングと検証を行います。実験結果によると、LagMemoは多モーダルオープンボキャブラリ目標の正確なローカライズを可能にし、従来の最先端手法と比較して優れた性能を示しています。