SpecAttn: スパースアテンションの推測

この記事では、大規模言語モデル（LLM）の推論における計算のボトルネックを解決するために、SpecAttnという新しいアプローチを提案しています。自己注意機構の二次的計算が問題となり、文脈の長さが増すとその影響が顕著になります。SpecAttnは、すでに計算された重みを利用して重要なトークンを特定し、重複する計算を排除することで出力品質を維持しつつ効率的なスパースアテンションを実現します。この手法は、ドラフトモデルとターゲットモデル間のKLダイバージェンスに基づく層の整列、GPU最適化されたトークン選択アルゴリズム、ダイナミックキャッシュプルーニングの三つの技術を採用しています。既存の推測デコーディングパイプラインの計算作業を活用することで、75%以上のキャッシュアクセス削減を達成し、従来のスパースアテンション法を大きく上回る成果を示しています。