推論言語モデルの提供が明らかに: 実証研究

本論文では、推論大規模言語モデル（RLLM）のサービス性能と挙動についての実証的研究を行い、従来の一般的な大規模言語モデル（LLM）と比較しています。RLLMは、数学やコーディングなどの複雑な推論タスクにおいて優れた性能を示しますが、その提供性能は未調査でした。研究の結果、RLLMには顕著なメモリ使用量や変動、リクエストのストラグラー、適応的な実行時間、ドメインの好みなど、いくつかの明確な違いがあることが分かりました。また、既存の推論最適化技術がRLLMに対して有効であるかどうかを探求し、モデルの量子化手法や投機的デコーディングがRLLMの精度を若干犠牲にしつつサービスの効率を向上させる可能性があることを示しました。一方で、プレフィックスキャッシュやKVキャッシュの量子化は、RLLMの精度や提供性能を低下させる可能性もあることが確認されました。最後に、実世界のワークロードに基づく評価を行い、得られた実証結果はRLLMのサービスに関する主な発見と一致しました。本研究は、RLLM推論サービスの進展に向けた洞察を提供することを目指しています。