本論文では、物理世界の固有の3D特性を無視してピクセル整列表現に依存する既存の方法の限界を指摘し、新たに提案するネイティブ3Dワールドモデル「Terra」を紹介します。Terraは、3D潜在空間における探索可能な環境の表現と生成を行います。具体的には、3D入力を潜在点表現にエンコードし、3Dガウスプリミティブとしてデコードする新しい点からガウスへの変分オートエンコーダ(P2G-VAE)を採用しています。さらに、ポイントフローマッチングネットワーク(SPFlow)を使用して、ノイズを除去しながら潜在点表現を生成します。Terraは、ネイティブな3D表現を用いて正確なマルチビューの一貫性を実現し、単一の生成プロセスで任意の視点から柔軟なレンダリングをサポートします。実験では、ScanNet v2の室内シーンに対して優れた再構造化と生成性能、及び高い3Dの一貫性を達成しています。