この記事では、大規模トランスフォーマの効率的なトレーニング手法として、First Attentions Last(FAL)という新しいアーキテクチャが提案されています。通常のトランスフォーマでは、MHA(Multi-Head Attention)とMLP(Multi-Layer Perceptron)の接続に必要な通信オーバーヘッドが問題となっていますが、FALは最初のMHA出力を次の層のMLP入力にリダイレクトすることで、この接続をバイパスします。これにより、全体の通信負担が軽減され、単一GPUでのMHAとMLPの並行実行が可能になります。また、FAL+では、最初の注意出力を次の層のMHA出力に追加してモデルの精度を向上させています。評価結果によれば、FALはマルチGPUトレーニング時間を最大44%削減し、単一GPUのスループットを1.18倍向上させ、優れた困惑度を達成しています。