スケーラブルなMixture-of-Experts推論のための動的専門家量子化

論文では、Mixture-of-Experts (MoE)モデルの効率的なスケーリングに関する新しい手法、DynaExqを提案しています。これにより、消費者向けGPUにおける大きなメモリ消費を軽減し、専門家の活動パターンの変化に適応できるようになります。DynaExqでは、専門家の精度を動的に管理し、ホットネスを考慮した精度制御や非同期の精度切替パイプラインを導入しています。このアプローチにより、メモリ制約のある環境でも大規模LLMを安定的に運用でき、静的な低精度ベースラインと比較して最大4.03ポイントの精度向上を実現しました。これにより、負荷に応じた適応的な量子化がMoEサービングにおいて有効な戦略であることが示されました。