VIDEOP2R: 知覚から推論への動画理解

本記事では、VIDEO P2Rという新しい動画理解のフレームワークを提案します。このフレームワークは、知覚と推論を明確に区別してモデル化し、動画の推論能力を向上させることを目的としています。提案されるアプローチは、強化ファインチューニング（RFT）と呼ばれ、監督付きファインチューニング（SFT）と強化学習（RL）の二段階から成ります。特に、SFT段階では高品質なプロセス対応の思考の連鎖（CoT）データセットを生成し、RL段階では、知覚と推論それぞれに固有の報酬を提供する新しいアルゴリズム（PA-GRPO）を導入します。実験により、VIDEO P2Rは動画推論および理解のベンチマークで最先端の性能を達成し、そのプロセス対応モデル化の効果も確認されています。