本記事では、LACY(Language-Action Cycle)というフレームワークが提案されている。LACYは、言語からアクションへのマッピング(L2A)と、アクションから言語へのマッピング(A2L)を双方向に学習することを目指している。従来の手法は、タスクを実行する際に深い文脈理解を欠いているため、一般化や行動の説明に限界があった。LACYは、言語によるアクション生成、観察されたアクションの説明、2つの言語記述間の意味的整合性の検証という3つの関連タスクを共同で訓練し、自己改善サイクルを実現。それにより、低信頼度のケースを対象に新しいトレーニングデータを自動生成し、モデルの改善を達成する。シミュレーションおよび実世界でのピックアンドプレースタスクにおける実験では、タスク成功率が平均56.46%向上し、ロボット操作における言語-アクションの基盤がより堅牢なものとなった。