ルーティング多様体の整合性がMixture-of-Experts LLMの一般化性能を向上させる

本論文では、Sparse Mixture-of-Experts (MoE)が大規模言語モデルにおいて効果的にモデル能力をスケールアップできる一方で、既存のMoE LLMにおけるルーターの最適性が一貫して不足していることを指摘しています。この不足は、正しいルーティングに対する性能差（精度で10-20%）を生み出します。本研究では、タスクエンベディングとのルーティング重みの多様体を整合させる手法、「Routing Manifold Alignment (RoMA)」を提案し、これにより一般化性能が向上することを示します。RoMAはポストトレーニングの目的関数に追加の多様体正則化項を導入し、ルーターの軽量なファインチューニングのみで実施可能です。特に、この正則化はタスクエンベディング空間において、各サンプルのルーティング重みが成功した隣接サンプルのものに近づくよう促します。実験では、OLMoE、DeepSeekMoE、Qwen3-MoEにおけるルーターのファインチューニングをRoMAを使用して行い、さまざまなベンチマークでの評価が大幅な改善を示しました。