本論文では、Mixture-of-Experts(MoE)モデルの限界を克服する新しいアプローチ「MoE-Prism」を提案しています。従来のMoEモデルは、限られたモノリシック専門家に依存しており、スパースなアクティベーションを使用することで高い性能を発揮しますが、これが原因で品質の柔軟性が欠如し、コストと品質の間の厳しいトレードオフが発生していました。提案されたMoE-Prismは、モデルとシステムの共同設計により、堅固なMoEモデルを弾力的なサービスに変革します。この方法は、まず「オフラインリファクタリングエンジン」を用いてモノリシック専門家を細分化された「サブ専門家」に再構築し、次に「オンラインスケジューリングエンジン」で新しい弾力性を活用します。評価の結果、MoE-Prismはバランスラインに比べて、4倍以上の安定した運用ポイントを提供し、厳しいレイテンシ予算の下でスループットを最大19.9%向上させたり、限られたリソースの条件下でレイテンシを10.36%削減したりすることが確認されました。