本研究では、一般目的のロボットが人間の環境で効果的に行動するための能力向上を目指し、自然言語の理解と物理タスクへの応用に焦点を当てています。特に、視覚とテキスト情報を統合してロボットの動作を精緻に生成するための拡張潜在3D拡散モデル(EL3DD)を提案します。このモデルは、テキストコマンドで指定された操作タスクを実行するために、トレーニング中に参照デモを使用することで学習します。さらに、画像生成向けの手法を取り入れ、既存のモデルを強化します。CALVINデータセットを用いた評価では、さまざまな操作タスクにおいてパフォーマンスが向上し、連続する複数のタスクの成功率も高まることを示しました。これにより、拡散モデルの有用性が再確認され、マルチタスク操作の一般性に寄与することが期待されます。