BuddyMoE: 専門家の冗長性を利用してメモリ制約のあるエキスパート混合推論を加速する

BuddyMoE: Exploiting Expert Redundancy to Accelerate Memory-Constrained Mixture-of-Experts Inference

この論文では、Mixture-of-Experts (MoE) アーキテクチャの効率性を向上させる手法「BuddyMoE」について述べています。MoEモデルは、各入力トークンに対して専門のエキスパートネットワークの一部のみを活性化し、計算負荷を軽減しますが、モデルが大規模になるとGPUのメモリを超えてしまうことがあります。たとえば、Mixtral-8x7Bは450億のパラメーターを持ち、トークンごとに140億のパラメーターしか使用しないにもかかわらず、87GBのメモリを必要とします。既存のシステムは、非アクティブなエキスパートをCPUメモリにオフロードすることでこの制限を緩和しますが、エキスパート間の転送には10ms程度の遅延があります。予測に基づいたプレフェッチ技術は、この遅延を隠すことを目指しますが、プレフェッチの失敗は待機時間を増大させ、推論の遅延を悪化させることがあります。したがって、プレフェッチ失敗時に高速な推論速度とモデル精度を維持することが重要な課題となります。