ViPER: 視覚言語モデルにおける視覚知覚能力の自己進化を可能にする

ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model

この論文では、視覚言語モデル（VLM）の実世界アプリケーションにおける視覚知覚能力の限界を克服するための新しいアプローチ、ViPERを紹介します。従来の方法は高品質なデータが不足していることや、一般的な能力を損なうことが多いため、効果的な改善が難しいです。ViPERは、粗から細への進行過程として視覚知覚学習を構造化する二段階のタスクを採用し、自己批評と自己予測を通じて反復的進化を促進します。画像レベルとインスタンスレベルの再構成を二段階の強化学習戦略と結合し、自己生成したデータを用いて知覚能力を強化するクローズドループ訓練パラダイムを確立します。実験の結果、Qwen-Viperシリーズは多様なタスクにおいて平均1.7%の性能向上を示し、特に詳細な知覚能力では最大6.0%の改善を達成しています。この研究は、生成と理解の相互関係の具体的な証拠を提供し、より自律的で能力の高いVLMの開発に向けた重要な一歩となります。