arXiv cs.AI

Spatial-SSRL: 自己教師型強化学習による空間理解の強化

Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning

http://arxiv.org/abs/2510.27606v1


Large Vision-Language Models (LVLMs)は空間理解の面で課題があります。従来の監視付き微調整(SFT)や最近の検証可能報酬を用いた強化学習パイプラインは、高コストな監視や特殊なツール、制約された環境に依存しています。本研究では、Ordinary RGBやRGB-D画像から直接検証可能な信号を導き出す自己教師型の強化学習手法であるSpatial-SSRLを提案します。Spatial-SSRLは、2Dおよび3Dの空間構造を捉えるための5つの前提タスクを自動的に構築します:シャッフルパッチの順序変更、反転パッチ認識、切り取ったパッチのインペインティング、領域の深度順序付け、相対的な3D位置予測。これらのタスクは簡単に検証可能で、人間またはLVLMからのアノテーションを必要としません。これにより、空間的推論が大幅に改善され、一般的な視覚能力も保持されます。結果として、7つの空間理解ベンチマークでQwen2.5-VLベースラインに対してそれぞれ4.63%(3B)及び3.89%(7B)の精度向上が見られました。この研究は、シンプルで本質的な監督がスケールでのRLVRを可能にし、LVLMの強化された空間知性を実現する実用的な方法を提供することを示しています。