本記事では、大規模言語モデル(LLM)推論システムにおける処理の公正性を考慮した新しいバッチスケジュール手法「FairBatching」を提案しています。従来のスケジューラはデコードタスクを過度に優先するため、リソースが適切に活用されず、全体的なサービス品質が低下する問題がありました。FairBatchingは、プレフィルとデコードタスクのリソース配分を公平に行い、動的なバッチ容量決定メカニズムを用いてGPUの利用効率を改善します。また、公正なバッチ形成アルゴリズムにより、デコードタスクからリソースを回収し、プレフィルの急増に対応することで、全体的な公平性を実現します。実評価の結果、TTFTの待機遅延が最大2.29倍低減し、TPOTのサービスレベル目標(SLO)の維持と合わせて、シングルノードの能力が20.0%、クラスター全体で54.3%改善されることが示されました。