arXiv cs.LG

$ rac{ ext{π}}{*}_{0.6}$: 経験から学ぶVLA

$π^{*}_{0.6}$: a VLA That Learns From Experience

http://arxiv.org/abs/2511.14759v1


$ rac{ ext{π}}{}_{0.6}$は、視覚-言語-行動(VLA)モデルが実世界の展開を通じて強化学習(RL)によって向上する方法を探求した研究です。本記事では、優位性条件付きポリシーによる経験と修正を活用した強化学習手法(RECAP)を提案します。この手法は、デモや専門家の遠隔操作からのデータを含む多様なデータを自己改善プロセスに取り入れます。最初に一般的なVLAをオフラインで強化学習により事前訓練し、その後、ロボット上でのデータ収集を通じて特化させることができます。RECAP法を用いた$ rac{ ext{π}}{}_{0.6}$モデルは、実際の家庭での洗濯物のたたみ、ボックスの組み立て、プロのエスプレッソマシンを使用したエスプレッソの作成が可能であり、特に困難なタスクでは処理能力が2倍以上向上し、失敗率が約半減することを示しました。