本論文では、トランスフォーマーの効率を向上させるミクスチャー・オブ・エキスパート(MoE)モデルについての理論的な説明が不足していることに着目しています。特に、フィードフォワード層と注意機構が専門化している場合におけるその問題を扱います。著者らは、ミクスチャー・オブ・トランスフォーマー(MoT)という理論的なフレームワークを提案し、それぞれのトランスフォーマーブロックを専門家として扱い、継続的に訓練されるゲーティングネットワークによって制御します。この設計により、専門家の専門化と注意の整合性を研究できます。研究では、ゲーティングネットワークを継続的に訓練する三段階のアルゴリズムを開発し、トランスフォーマーの専門家が異なるタスクに特化し、データが正しい専門家に正確にルーティングされることを示しました。結果として、勾配の競合が減少し、サブタスクが強凸になることが確認されました。このトレーニングプロセスにより、予測損失がほぼゼロに近づくことが証明され、実際のデータ実験を通じて理論的発見が検証されました。この結果は、トランスフォーマーレベルでの専門化と学習ダイナミクスの包括的な理論的説明を提供し、大規模モデルの効率的な設計に向けた実践的な指針を示しています。