接触が豊富な操作には、ロボットが視覚、力覚、および固有受容感覚を統合的に活用できることが求められますが、強化学習エージェントは、感覚ノイズや動的変化の中でマルチセンサー環境での学習に苦労しています。この記事では、タスク指向のポリシー学習に特化した表現豊かなマルチセンサーレプレゼンテーションを学ぶための新しいフレームワーク「MultiSensory Dynamic Pretraining(MSDP)」を提案します。MSDPは、マスクオートエンコーディングに基づき、センサエンベディングのサブセットからマルチセンサー観測を再構築することで、クロスモーダル予測とセンサー融合を実現します。ポリシー学習のために、非対称アーキテクチャを導入し、クリティックは固定されたエンベディングから動的でタスク特有の特徴を抽出し、アクターは安定した集約表現を受け取ることで、行動を導きます。この方法は、多様な摂動下でも加速学習と堅牢な性能を示し、実世界のロボット操作タスクでも効果的であることが確認されています。