この記事では、ロボティクスにおける操作システム向けに新しい手法「PointMapPolicy」を提案しています。この手法は、ポイントクラウドとRGB画像のデータを結合し、環境情報を最大限活用します。従来のポイントクラウド技術は複雑なタスクでの詳細情報のキャプチャに苦しんでおり、RGBメソッドは幾何的な認識が不足しています。PointMapPolicyでは、下サンプリングなしで構造化されたポイントグリッドに基づいて拡散ポリシーを条件付けることにより、観察から形状や空間関係を抽出しやすくなります。この新しいデータ形式は、確立されたコンピュータビジョン技術を3Dデータに直接適用することを可能にし、xLSTMをバックボーンとして使用しています。RoboCasaおよびCALVINのベンチマークと実ロボット評価による広範な実験により、様々な操作タスクで最先端の性能を達成したことが示されています。