この記事では、エキスパート混合(Mixture-of-Experts, MoE)アーキテクチャにおける強化学習(RL)のトレーニングの不安定性に対処する新しい手法を提案しています。近年のRLの進展は、大規模言語モデルのトレーニングを改善しましたが、MoEアーキテクチャに特化した研究は少ないのが現状です。著者たちは、オフポリシーRLにおける重要性サンプリング(IS)重みを最適化するために、ルーターのロジットに基づくリスケーリング戦略を設計しました。この戦略は、勾配分散を減少させ、トレーニングの発散を軽減する効果を持つことが実験結果から示されています。最終的に、この手法がMoEモデルの収束安定性とパフォーマンスを大幅に向上させることを示し、効率的な大規模エキスパートモデルのトレーニングにおけるRLアルゴリズムの革新の可能性を強調しています。