arXiv cs.AI

VIDEOP2R: 知覚から推論への動画理解

VIDEOP2R: Video Understanding from Perception to Reasoning

http://arxiv.org/abs/2511.11113v1


本記事では、VIDEO P2Rという新しい動画理解のフレームワークを提案します。このフレームワークは、知覚と推論を明確に区別してモデル化し、動画の推論能力を向上させることを目的としています。提案されるアプローチは、強化ファインチューニング(RFT)と呼ばれ、監督付きファインチューニング(SFT)と強化学習(RL)の二段階から成ります。特に、SFT段階では高品質なプロセス対応の思考の連鎖(CoT)データセットを生成し、RL段階では、知覚と推論それぞれに固有の報酬を提供する新しいアルゴリズム(PA-GRPO)を導入します。実験により、VIDEO P2Rは動画推論および理解のベンチマークで最先端の性能を達成し、そのプロセス対応モデル化の効果も確認されています。