効率的なマルチスケールシーケンス処理のための分数ニューラルアテンション

この記事では、分数ニューラルアテンション（FNA）という新しいフレームワークを紹介しています。FNAは、トランスフォーマーモデルの自己アテンションの原理を生物学的な注意のマルチスケールダイナミクスからインスパイアを受けており、短距離および長距離の依存関係を同時に実現します。理論的には、FNAのダイナミクスは分数拡散方程式によって支配され、実際のアテンションネットワークはより大きなスペクトルギャップと短いパス長を持ち、計算効率の向上を示します。エンピリカルにおいても、FNAは単一層かつ単一ヘッドで競争力のあるテキスト分類性能を達成し、画像処理やニューラル機械翻訳でも性能を向上させることが確認されています。さらに、幾何学的調和からの拡散マップアルゴリズムを用いることで、FNAの重みの次元削減が可能であり、埋め込みや隠れ状態の構造を保護します。これらの結果が、自己アテンション、確率的ダイナミクス、幾何学を結びつける原則的なメカニズムとしてのFNAの確立に寄与しています。