arXiv cs.AI

ディフュージョンLLMにおけるKVキャッシュのための注意機構の重要性

Attention Is All You Need for KV Cache in Diffusion LLMs

http://arxiv.org/abs/2510.14973v1


本研究では、ディフュージョン大規模言語モデル(DLM)のために、キー・バリュー(KV)キャッシュを適応的に再計算する方法を探求し、予測精度を最大化しながらデコーディングのレイテンシーを最小化する方法を提案します。従来の手法は、各デノイジングステップで全トークンに対してQKVを再計算するため、特に浅い層ではKS状態がほとんど変化せず、冗長性が生じていました。我々は、遠くのMASKトークンが長さバイアスとして作用すること、KVのダイナミクスが深い層で増加すること、および最も注意を引くトークンが最小のKVドリフトを示すことを観察しました。これに基づき、Elastic-Cacheというトレーニング不要でアーキテクチャに依存しない戦略を提案し、リフレッシュのタイミングと場所を選択します。実験結果は、デコーディングを加速しつつ生成品質を維持できることを示しています。特にGSM8Kでは8.7倍の速度向上が観測され、高い精度が保たれました。