arXiv cs.AI

Gen-LangSplat: 事前訓練された特徴圧縮による一般化言語ガウススプラッティング

Gen-LangSplat: Generalized Language Gaussian Splatting with Pre-Trained Feature Compression

http://arxiv.org/abs/2510.22930v1


本記事では、物理環境内での直感的な人間とAIのインタラクションを実現するための、3Dオープンボキャブラリー言語フィールドをモデル化する必要性について説明しています。既存の先進的手法であるLangSplatは、3Dガウススプラッティングを用いて、CLIPのような高次元モデルから抽出した特徴を効率的に構築しますが、シーン固有の自動エンコーダの訓練が必要なため、スケーラビリティに制約があります。本研究では、Gen-LangSplatを提案し、事前に大規模なScanNetデータセットで訓練された一般化自動エンコーダに置き換えることで、この制約を解消します。このアーキテクチャの変更により、新しいシーンでも事前訓練されたコンパクトな潜在空間を使用でき、シーン固有の訓練は不要です。その結果、クエリ性能がLangSplat法と同等またはそれ以上であることを示し、リアルタイムのインタラクティブな3D AIアプリケーションに向けた道を切り開きます。