ディフュージョンLLMにおけるKVキャッシュのための注意機構の重要性

本研究では、ディフュージョン大規模言語モデル（DLM）のために、キー・バリュー（KV）キャッシュを適応的に再計算する方法を探求し、予測精度を最大化しながらデコーディングのレイテンシーを最小化する方法を提案します。従来の手法は、各デノイジングステップで全トークンに対してQKVを再計算するため、特に浅い層ではKS状態がほとんど変化せず、冗長性が生じていました。我々は、遠くのMASKトークンが長さバイアスとして作用すること、KVのダイナミクスが深い層で増加すること、および最も注意を引くトークンが最小のKVドリフトを示すことを観察しました。これに基づき、Elastic-Cacheというトレーニング不要でアーキテクチャに依存しない戦略を提案し、リフレッシュのタイミングと場所を選択します。実験結果は、デコーディングを加速しつつ生成品質を維持できることを示しています。特にGSM8Kでは8.7倍の速度向上が観測され、高い精度が保たれました。