大規模言語モデル(LLM)のトレーニングは、GPUの限られた容量や高コストのため、メモリボトルネックに直面しています。従来の手法では、GPUからCPUやNVMeへのメモリオフロードが可能になったものの、高いテンソル移行遅延や最適でないデバイスメモリの利用効率が問題とされています。これらの課題を解決するために、10Cacheという新たなシステムが提案されました。このシステムは、GPU、CPU、NVMeのメモリ使用を賢く調整し、LLMトレーニングを加速します。10Cacheはテンソルの実行順序をプロファイリングし、プリアロケーションポリシーを構築、テンソルサイズに基づいてメモリバッファを割り当て、メモリオーバーヘッドを最小化するためにバッファを再利用します。クラスター規模の展開を想定した設計により、トレーニング時間を最大2倍短縮し、GPUキャッシュ命中率を最大86.6倍改善し、CPU/GPUメモリの利用効率をそれぞれ2.15倍及び1.33倍向上させます。これにより、10Cacheはクラウド環境におけるLLMトレーニングのスループットとリソース効率を最適化する実用的かつ拡張可能なソリューションであることが示されています。