MaskCaptioner：動画内の物体軌跡を共同でセグメント化しキャプションを生成する学習

MaskCaptioner : Learning to Jointly Segment and Caption Object Trajectories in Videos

本記事はDense Video Object Captioning (DVOC)という、動画内の物体軌跡を同時に検出、追跡、キャプションするタスクに関するものである。一般的に、このタスクは時空間の詳細を理解し、自然言語で説明する能力を必要とするが、手動での注釈付けが高コストであるため、これまでの研究は分割されたトレーニング手法に頼ることが多かった。この問題を解決するために、著者らは最新のVLM（視覚言語モデル）を利用して、時空間に局在したエンティティに関するキャプションを生成する手法を提案。さらに、LVISおよびLV-VISデータセットを合成キャプションで拡張し、MaskCaptionerというエンドツーエンドモデルを訓練した。このモデルは、物体の軌跡の検出、セグメント化、追跡、キャプションを一体で行うことができる。MaskCaptionerは、事前学習の結果、VidSTG、VLN、BenSMOTのベンチマークにおいて最新のDVOC結果を達成した。