言語条件付き表現と専門家の混合ポリシーによる堅牢なマルチタスクロボティック操作

Language-Conditioned Representations and Mixture-of-Experts Policy for Robust Multi-Task Robotic Manipulation

この記事では、模倣学習における知覚の曖昧さとタスクの対立が、マルチタスクロボティック操作を制限する問題に対処するために、新たなフレームワークを提案しています。このフレームワークは、言語条件付き視覚表現（LCVR）モジュールと、言語条件付き専門家混合密度ポリシー（LMoE-DP）を組み合わせています。LCVRは、視覚的特徴を言語指示と結びつけることで知覚の曖昧さを解消し、視覚的に類似したタスクの区別を可能にします。また、LMoE-DPは、異なる多様なアクション分布に特化する希少専門家アーキテクチャを用い、グラデーション調整によって安定化しています。実際のロボットベンチマークにおいて、LCVRはACTおよびDPの成功率をそれぞれ33.75%および25%向上させ、全体として79%の平均成功率を達成しました。この研究は、意味的な基盤と専門家の特化を組み合わせることで、堅牢で効率的なマルチタスク操作が可能であることを示しています。