MoE-SpeQ: 混合専門家のための予測量子デコーディングと専門家の事前取得およびオフロード

MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts

本論文では、最先端の混合専門家（MoE）モデルにおける推論時の膨大なメモリ要件に対処するための新しいシステム「MoE-SpeQ」を提案する。従来、専門家のオフロードはホストメモリに負担をかけ、PCIeバス上に深刻なI/Oボトルネックを引き起こす。これは、データ依存の専門家選択のために、同期転送が実行の重要な経路に直接影響を及ぼすためである。MoE-SpeQは、デバイス上の小規模なドラフトモデルを用いて将来のトークンに必要な専門家のシーケンスを予測し、これにより実行中のオーケストレータがこれらの専門家を事前にホストメモリから取得することを可能にする。これにより、I/Oの高コストを有用な計算と重ね合わせ、レイテンシーをクリティカルパスから隠すことができる。評価の結果、Phi-MoEモデルにおいて、MoE-SpeQは従来のオフロードフレームワークに対して最大2.34倍のスピードアップを達成した。これにより、リソースが限られた環境でもデータ依存型メモリアクセスを管理する新たな原則に基づくアプローチが確立された。