階層型スパースアテンションモデルにおける長さ一般化の理解と改善

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

言語モデルにおいて、長い文脈を効果的に処理することは重要な課題です。標準的なトランスフォーマーは、計算量が二次的であり長さ予測が不十分であるため制約があります。一方で、スライディングウィンドウアテンションや状態空間モデルのような代替アーキテクチャも、固定サイズのメモリ制約から文脈の完全な活用ができません。チャンクベースのスパースアテンションは、極端な長さの一般化の新たなパラダイムとして注目されていますが、その成功の背後にある主要な要素はまだ完全には理解されていません。本研究では、これらのモデルを体系的に分析し、性能を向上させるための三つの設計原則を示します。具体的には、表現力豊かな非線形チャンクエンコーダ、グローバル情報を安定に組み込むバイパス残差パス、事前訓練時の選択的スパース性の強制が重要であることを実証しました。これらの原則を組み合わせることで、32万トークンへの一般化に成功し、今後の長文脈対応言語モデルの設計原則を提供します。