この記事では、長時間の動画を理解するための効率的なキーフレーム選択手法であるFOCUSを提案しています。従来の手法は、動画のトークン数が実用的な限界を超えて膨大になるため、効率的な情報抽出が課題でした。FOCUSは、先行プロセスを必要とせず、モデルに依存しない形で、クエリに関連するフレームを厳格なトークン予算内で選択します。具体的には、短い時間クリップをアームと見立て、多腕バンディットの問題としてキーフレーム選択を定式化し、有用な領域を特定しつつ不確実な領域の探索も行う二段階の探索・活用手法を採用しています。この方式により、20分以上の動画においても高い精度向上を実現し、全体のフレームのうち2%未満を処理するだけで済むことを示しています。FOCUSは、MLLMsとの適合性を持つシンプルで汎用的な解法を提供します。