この記事では、視覚-言語-行動(VLA)モデルの成功が、事前学習された視覚-言語モデル(VLM)がエージェントに世界知識や視覚と言語の基盤を提供することから生じていると指摘しています。しかし、これらのVLMが行動モダリティに適応する際、その元の視覚-言語表現や知識がどの程度保持されるかは不明です。この研究では、VLAのファインチューニング中の表現保持に関する系統的な研究が行われ、単純な行動ファインチューニングが視覚表現の劣化を引き起こすことが示されています。著者たちは、VLAの隠れた表現を調査し、注意マップを分析するとともに、VLAモデルとそれに対するVLMの能力変化を対比させるターゲットタスクを設計しました。この結果、視覚表現を整列させるためのさまざまな戦略が評価され、劣化を軽減し、分布外(OOD)シナリオにおいて改善された一般化をもたらす簡単ながら効果的な方法が提案されています。