ゼロショット動画要約のための文脈認識型擬似ラベルスコアリング

動画コンテンツが急増する中、長い動画を意味的に忠実で簡潔な要約に変換する効率的な手法が求められています。従来の監視型手法は高い精度を達成していますが、ラベリングコストが高く、クロスデータセットの一般化能力が限られるという欠点があります。一方、非監視型アプローチはラベルなしであるものの、ヒューマンセマンティクスを適切に捉えることが難しいです。最近のゼロショットの手法は大規模な言語モデルを利用しますが、手作業で作成したテンプレートに敏感です。本研究では、真実の注釈の一部を高信頼な擬似ラベルに変換する新たなフレームワークを提案し、文脈を考慮したプロンプトによってシーンの評価を導く構造化されたスコアリングを行います。このアプローチにより、要約の質が向上し、従来の手法を超える結果を実現しました。特にSumMeとTVSumデータセットで良好なF1スコアを達成しています。