高次線形アテンション

高次線形アテンション（HLA）は、オート回帰型言語モデルを長いコンテキストにスケールさせる際の主要な障害である、スケールされたドット積アテンションの二次コストを克服するためのメカニズムです。従来の線形時間アテンションや状態空間モデル（SSMs）は、第一秩序またはカーネルベースの近似に制限されがちですが、HLAはコンパクトなプレフィックス十分統計を用いて高次の相互作用を実現します。HLAは、二次の場合でも常に定サイズの状態を維持し、$n imes n$ 行列を生成することなくトークンごとの出力を線形時間で計算します。また、二つの追加的な要約を使った厳密因果マスク型のバリアントや、逐次再帰の活性化を正確に再現するためのチャンク並列トレーニングスキームも提供します。これらの結果を通じて、HLAはアテンションに基づくデータ依存型のミキシングと、現代的な再帰アーキテクチャの効率を結合した原則的でスケーラブルな構成要素として位置付けられます。