本論文では、視覚のみを利用したロボット操作における新たな手法として、意味的および幾何学的特徴を効果的に融合した視覚のみの拡散ポリシー学習手法VO-DPを提案しています。既存のロボット操作手法は主に点群を使用しており、そのための学習が行われてきましたが、視覚のみのアプローチに関しては詳細な検討がなされていませんでした。VO-DPは、事前学習済みの視覚基盤モデルを活用し、DINOv2からの意味的特徴と、交互注意ブロックからの幾何学的特徴を組み合わせ、クロスアテンションを通じて特徴を融合します。実験結果から、VO-DPは視覚のみのベースラインであるDPを大幅に上回り、シミュレーションタスクでは成功率64.6%、実世界のタスクでは87.9%を達成しています。このように、異なる条件下でも高い安定性を示すVO-DPは、ロボット操作のトレーニングライブラリもオープンソースとして公開されています。