ZSPAPrune: ゼロショットプロンプト対応トークンプルーニングによる視覚-言語モデルの最適化

ZSPAPruneは、視覚-言語モデル（VLM）の入力が増大する中で、視覚トークンの冗長性を削減し、推論コストを軽減する新しいアプローチを提案しています。従来の方法ではテキストプロンプトの指針を無視し、タスクの関連性を重視しない傾向がありましたが、本研究ではプロンプトに対応した視覚トークンプルーニングを提案。具体的には、タスクの重要トークンを選定し、情報の多様性を保つために補助トークンを追加する階層的アプローチを採用しています。実験結果から、90%のトークンをプルーニングしてもほとんど精度の低下なく、最先端性能と同等またはそれ以上の結果を達成し、GPUメモリの消費と推論遅延も大幅に削減できることが示されました。