初期の注意を最適活用: 効率的なトランスフォーマのための初期注意の活用方法

First Attentions Last: Better Exploiting First Attentions for Efficient Transformer Training

この記事では、大規模トランスフォーマの効率的なトレーニング手法として、First Attentions Last（FAL）という新しいアーキテクチャが提案されています。通常のトランスフォーマでは、MHA（Multi-Head Attention）とMLP（Multi-Layer Perceptron）の接続に必要な通信オーバーヘッドが問題となっていますが、FALは最初のMHA出力を次の層のMLP入力にリダイレクトすることで、この接続をバイパスします。これにより、全体の通信負担が軽減され、単一GPUでのMHAとMLPの並行実行が可能になります。また、FAL+では、最初の注意出力を次の層のMHA出力に追加してモデルの精度を向上させています。評価結果によれば、FALはマルチGPUトレーニング時間を最大44%削減し、単一GPUのスループットを1.18倍向上させ、優れた困惑度を達成しています。