ハイブリッドスパースアテンションと文脈化可能なトークン排除による線形注意の忘却軽減

Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction

線形注意モデルは、全入力シーケンスを固定サイズの再帰状態に圧縮することで、効率的な代替手段を提供しますが、その有限なメモリは忘却を引き起こし、特に情報検索に関するタスクに悪影響を与えます。本研究では、過去のトークンへの直接アクセスを復元するハイブリッドモデルを提案しています。このモデルでは、線形注意と全注意の中間的な時間空間の複雑性を持つトークンミキサーを交互に使用し、トークン排除を伴うスパースアテンションやクエリに依存したネイティブスパースアテンションを含んでいます。特に、学習可能なトークン排除手法を導入し、スライディングウィンドウアテンションと組み合わせることで、過去と未来の隣接トークンから情報を集約し、各ヘッドごとに重要なKVペアのみを適応的に保持することができます。これにより、線形注意の定数時間・空間の複雑性を維持しながら、効率的なスパースアテンションメカニズムを実現しています。実験的評価によってこのアプローチの有効性が支持されています。