本論文では、異なるエンドエフェクターと機能を持つ複数のロボットが、コンピュータビジョンに基づき様々なオブジェクトに対する複雑な操作タスクを計画し実行する問題に取り組んでいます。提案するのは、簡単な言語指示を用いて人間の監視入力を受け取りながら、頑健にアクションシーケンスを構築できる意図駆動型計画パイプラインです。このパイプラインは、シーンをテキスト化する知覚からテキストのエンコーディング、オペレーターの意図に基づく候補の除去シーケンスを生成する大規模言語モデル(LLM)のアンサンブル、形式や優先順位の制約を強化するLLMベースの検証器、および幻覚オブジェクトを排除する決定的な整合性フィルタを統合しています。実験として、二つのロボットアームが協力してEVバッテリーを分解するタスクを評価し、人間の指示に基づく特定の手順でさまざまな部品を取り外すプロセスを示しました。結果、提案手法はオペレーターの意図を安全で実行可能なマルチロボット計画に確実にマッピングし、低いユーザーの負担を維持できることが示されました。