MergeMoE: エキスパート出力の統合によるMoEモデルの効率的圧縮

本研究では、Mixture-of-Experts (MoE) 技術によるモデルサイズの効率的拡張の手法を検討していますが、MoEモデルの大きなメモリオーバーヘッドにより、その圧縮が重要な研究課題となっています。提案するMergeMoEは、最近のエキスパート統合技術に基づき、エキスパートの出力を統合する視点で新たな圧縮アプローチを提供します。この方法では、フワード計算に追加の行列を挿入するプロセスを最適化の数理的形態で表現し、圧縮行列を構築します。評価の結果、MergeMoEは複数のMoEモデルにおいて、同じ圧縮率でのベースラインを一貫して上回る性能を示しました。