arXiv cs.LG

モデルからオペレーターへ:大規模生成モデルのオートスケーリング粒度の再考

From Models to Operators: Rethinking Autoscaling Granularity for Large Generative Models

http://arxiv.org/abs/2511.02248v1


本論文では、大規模生成モデル(LLMやマルチモーダルトランスフォーマー)のサービスにおけるオートスケーリングの最適化を提案しています。従来の方法はモデル全体を一つの単位とし、静的なリソース割当てやモデルレベルのオートスケーリングに依存していますが、これでは動的な推論トラフィックに適応できず、パフォーマンスの低下やリソースの無駄遣いを引き起こします。論文では、生成モデルの内部構造がオペレーターのグラフであることに着目し、オペレーター単位でのリソース管理が効果的であることを示しています。具体的には、各オペレーターの計算およびメモリの特徴を考慮したオペレーター単位のオートスケーリングフレームワークを提案し、リソースの配分、バッチ処理の最適化、配置を行います。このアプローチは、GPUを最大40%削減しつつサービスレベル目標(SLO)を維持することができ、また限られたリソースでのスループットを1.6倍向上させる結果を得ています。