この記事では、CLOというCPU軽量のKVキャッシュオフロードシステムを提案しています。このシステムは、アルゴリズムとシステムの共同設計によって、LLMの推論におけるスケーラビリティの限界を克服することを目的としています。提案するCLOは、GPU上の粗粒度な頭部別近似キャッシュ戦略や、データの事前取得と持続的キャッシュのシームレスな統合、PCIe帯域幅を最大化するゼロコピー転送エンジンなどの機能を備えています。これにより、CPUのオーバーヘッドを大幅に削減しながら、デコードスループットを9.3%から66.6%向上させることができました。本研究は、記憶制約のあるLLM推論において、アルゴリズムとシステムの共同設計が重要であることを示しています。