arXiv cs.AI

選択を減らし、推論を増やす:ビデオ推論における証拠の純度を優先する

Select Less, Reason More: Prioritizing Evidence Purity for Video Reasoning

http://arxiv.org/abs/2510.15440v1


本研究は、長編ビデオ推論における課題を解決するために、証拠の純度を優先する新しいフレームワークを提案しています。従来の手法では、静的かつ均一なフレームサンプリングが情報の希薄化を引き起こし、重要な証拠を見逃すことがありました。また、既存のピクセル空間ビデオ推論エージェントは、厳格な報酬メカニズムの不備や、事前サンプリングされたフレームを超えた時間情報の補完ができないため、最適とは言えません。これを改善するために、「選択を減らし、推論を増やす」という哲学に基づいた証拠認識強化学習(EARL)フレームワークを提案しました。このフレームワークは、最も関連性の高いフレームを動的に選択し、選択されたキー・フレームの周辺での再サンプリングを行い、詳細な時間情報を取得します。実験結果は、教示したモデルが新たな最先端の性能を達成し、視覚的証拠の選択ポリシーを効果的かつ高純度で学習していることを示しています。