DuetServe: 適応型GPUマルチプレクシングによるLLMサービスのためのプレフィルとデコードの調和

DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing

DuetServeは、LLM（大規模言語モデル）サービスにおけるプレフィルとデコードフェーズの間で高いスループットと厳しいレイテンシーの目標を達成するための統合フレームワークです。従来のアプローチは、GPUの共有による干渉やリソースの浪費を引き起こすことが多いですが、DuetServeはこれらのフェーズを必要に応じてデカップリングすることで、レイテンシーを保ちながら性能を向上させています。具体的には、調整可能なSM（ストリームプロセッサー）分割により、レイテンシーの目標が脅かされる際のみ隔離を行います。また、注意を考慮したルーフラインモデルや最適なSMスプリット選択、CPU-GPUの同期オーバーヘッドを排除する実行エンジンを統合し、最新技術と比較してスループットを最大1.3倍向上させています。