本研究では、マルチモーダル大規模言語モデルが視覚入力の長さに比例して膨張するKVキャッシュの圧縮に関する新たなアプローチを提案しています。従来の手法は注意スコアに依存しており、特にFlashAttentionなどの効率的な注意カーネルとは互換性がなく、値ベクトルの重要性を無視しています。そのため、本稿ではKV行列の分布の観点から、低周波数に主に集中するエネルギーを低域通過フィルターを用いて抽出し、主成分から大きく逸脱する外れ値KVを特定します。外れ値KVは推論に重要な特徴をエンコードしがちなため、周波数領域に基づいた新しいKVキャッシュ圧縮フレームワーク「FlashCache」を提案。これにより、外れ値KVの認識モジュールと動的予算配分モジュールを導入し、KVキャッシュのサイズを適応的に調整することで最大1.69倍のデコード速度向上を実現します。