現代のGPUのメモリ制約により、大規模言語モデルの拡張が難しくなっています。Mixture-of-Experts (MoE)アーキテクチャは、推論時に少数のパラメータのみを活性化し、メモリ要求と計算負荷を大幅に削減しますが、従来のMoE推論では、各層でアクティブなエキスパートを独立に選択するため、頻繁なパラメータ転送が遅延を引き起こします。この記事では、ExpertFlowというランタイムシステムを提案し、適応型エキスパートのプリフェッチとキャッシュを意識したルーティングを組み合わせて、予測ホライズンを動的に調整します。ExpertFlowは、転送帯域幅やパラメータの次元数などの実行時統計を活用し、未来のエキスパートの必要性を予測します。このようにすることで、キャッシュミスを減少させ、エキスパートのスワップインによる遅延を排除します。評価結果により、ExpertFlowはモデルのスタル時間をベースラインの0.1%未満に低減し、メモリ制約の厳しい環境下でのMoE推論を最適化できることが示されました。