VisPlay: 画像から自己進化する視覚・言語モデル

この記事では、視覚・言語モデル（VLM）を改善するための新しいフレームワーク「VisPlay」が紹介されています。従来の強化学習（RL）手法は人手によるラベル付けやタスク特有の戦略に依存しており、これがコスト高でスケーラビリティを欠く問題があります。VisPlayは、大量のラベルなし画像データを用いてモデルが自律的に推論能力を向上させることを可能にします。VisPlayでは、モデルを2つの役割—「画像条件付き質問者」と「マルチモーダル推論者」に割り当て、相互に作用させます。これらの役割は「Group Relative Policy Optimization（GRPO）」を用いて共同で訓練され、多様性と難易度の報酬によって生成される質問の複雑さと回答の質のバランスが取られます。実験結果からは、視覚的推論や構成的一般化に関し、複数のベンチマークで一貫した改善が確認でき、自己進化するマルチモーダル知能への道筋が示されています。