VLMと具現化インテリジェンスを意図的な練習政策最適化でつなぐ

Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization

この記事では、ユニバーサルで多目的な具現化インテリジェンスシステムの開発における二つの主な課題について述べています。これらの課題は、実世界のデータが不足し高コストであるため生じるデータボトルネックと、既存の手法の資源効率の悪さです。これらの制約を克服するために、著者たちは意図的な練習政策最適化（DPPO）というメタ認知的なトレーニングフレームワークを提案しています。DPPOは、監視下でのファインチューニングと強化学習を動的に交互に行うことで、自動的な弱点の特定とターゲット資源の配分を可能にし、限られたデータからの学習効率を最大化します。DPPOを用いたビジョン-ランゲージ具現化モデルであるPelican-VL 1.0は、ベースモデルに比べて20.3%の性能向上を実現し、オープンソースの100Bパラメータスケールモデルを10.6%上回る結果を示しました。著者らは模型とコードをオープンソースとして提供し、データと資源のボトルネックを緩和する初の体系的なフレームワークを提示しています。