この論文では、Mixture-of-Experts (MoE) アーキテクチャを用いる大規模言語モデル (LLM) において、専門家の呼び出しを効率化する新たなフレームワークを提案しています。従来の手法では、モデルはメモリ制約の影響を受けやすく、バッチサイズが中程度のものであっても、専門家への負荷が増加します。本研究では、トークンを動的にルーティングし、必要な専門家の数を減らすことでデコードのレイテンシを低減しつつ、同等の品質を保持することを目指します。具体的には、バッチ内で他のトークンに重要な専門家を利用する「バッチ認識ルーティング」を用いることで、Qwen3-30B および Qwen3-235B モデルでレイテンシをそれぞれ39%および15%削減しました。正確性に有意な損失はなく、効率性の向上が確認されています。