ParaFormer: 漸進的近似を持つ浅い並列トランスフォーマー

本記事では、従来の「深さが良い」という哲学に対抗して、浅い並列トランスフォーマーであるParaFormerが提案されています。深層モデルは訓練時間の長さやライティングレイテンシの増加、リソース制限されたデバイスでの使用の難しさなどの課題があります。ParaFormerは、真の並列性を構造と計算の両方において実現するために設計されており、レイヤーを並列のブランチに整理し、各新しいブランチが前のブランチからの損失をさらに減少させる漸進的な近似を実現します。多くの実験により、ParaFormerは標準的なトランスフォーマー（例えばViT）よりも優れた性能を示し、最大15.07倍のモデル圧縮をサポートし、適応的な継続学習のためのモデル拡張を容易にします。特に、ParaFormerは従来の並列ソリューションに比べて3.30倍の速度向上を達成しています。この成果は、ユニバーサル近似定理に基づいたトランスフォーマーの閉形式の定式化からもたらされており、効率的なトランスフォーマーアーキテクチャの設計に新たな道を切り開いています。