arXiv cs.AI

CARES: コンテキスト認識解像度セレクターのVLMsについて

CARES: Context-Aware Resolution Selector for VLMs

http://arxiv.org/abs/2510.19496v1


CARESは、視覚と言語の大規模モデル(VLMs)における効率的な画像処理を実現するための軽量前処理モジュールです。このシステムは、特定の画像とクエリのペアに対し、十分な最小入力解像度を予測します。従来の手法では、画像が高解像度で処理されるため、視覚トークンが97-99%を占め、計算負荷とレイテンシが増大しますが、CARESは350MのコンパクトなVLMを用いて特徴を抽出し、目標とするVLMの性能が最大に達する解像度を見極めます。CARESは連続解像度の補間を行い、タスクのパフォーマンスを保ちながら、計算コストを最大80%削減します。マルチモーダルなベンチマークでの評価により、さまざまなVLMにおいても一貫した効果を示しています。