大規模言語モデル(LLM)の需要が高まる中、推論時のKVキャッシュのサイズやメモリ帯域幅が問題となっています。過去の研究から、KVキャッシュは隠れ次元において低ランク特性を示し、圧縮の可能性があることが示されましたが、Rotary Position Embedding(RoPE)の採用により精度が低下したり、新たな速度のボトルネックが生じる問題があります。本論文では、RoPEがキー ベクトルのバリアンスを増加させ、ランクが高くなること、また鍵ベクトルを潜在空間に変換することで多くの層でその表現が維持されることをがポイントとして提案しています。これに基づき、スパースアテンションフレームワーク(SALS)を導入し、KVキャッシュを低ランクで圧縮した潜在空間にプロジェクションし、重要なトークンの選択を行います。実験結果では、SALSが最先端の性能を達成し、KVキャッシュの6.4倍の圧縮と、注意オペレーターの5.7倍の高速化を実現しました。