DuetServeは、LLM(大規模言語モデル)サービスにおけるプレフィルとデコードフェーズの間で高いスループットと厳しいレイテンシーの目標を達成するための統合フレームワークです。従来のアプローチは、GPUの共有による干渉やリソースの浪費を引き起こすことが多いですが、DuetServeはこれらのフェーズを必要に応じてデカップリングすることで、レイテンシーを保ちながら性能を向上させています。具体的には、調整可能なSM(ストリームプロセッサー)分割により、レイテンシーの目標が脅かされる際のみ隔離を行います。また、注意を考慮したルーフラインモデルや最適なSMスプリット選択、CPU-GPUの同期オーバーヘッドを排除する実行エンジンを統合し、最新技術と比較してスループットを最大1.3倍向上させています。