SnapStream: データフローアクセラレーターにおける効率的な長シーケンスデコーディング

この記事では、100B以上のパラメータを持つ大規模言語モデル（LLM）と、100k以上のコンテキスト長に対応するためのオンチップメモリの必要性について議論しています。KVキャッシュのサイズを管理しつつモデルの精度を維持する技術、StreamingLLMやSnapKVの活用方法を示しながら、これらの技術が業界で広く使われていない理由を探ります。具体的には、これらの技術がモデルに与える精度への影響をLlama-3.1-8B-InstructやDeepSeek-R1を用いて分析し、新たにSnapStreamというKVキャッシュ圧縮手法を開発しました。この方法は、DeepSeek-671Bを用いて実運用環境でのデモを行い、オンチップメモリ使用量を4倍改善し、精度の低下も最小限に抑えられることを示しています。