arXiv cs.LG

QUILL: キャッシュローカル変形アテンションのためのアルゴリズム-アーキテクチャ共同設計

QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention

http://arxiv.org/abs/2511.13679v1


QUILLは、変形トランスフォーマーの効率的なハードウェア実装を目指す新しいアクセラレーターです。従来の変形アテンションは、メモリアクセスの不規則性と演算強度の低さにより、ハードウェアとの適合性が低いという課題があります。QUILLは、空間的近接性に基づくクエリの順序付けを行うDistance-based Out-of-Order Querying(DOOQ)を中心に構築されており、キャッシュに優しい単一パスの処理を実現しています。また、MSDeformAttnエンジンが補間、ソフトマックス、集計、最終投影を一度の処理で実行し、中間データの保持を回避します。QUILLは、RTX 4090と比較して最大7.29倍のスループット向上と47.3倍のエネルギー効率を達成しており、過去のアクセラレーターを大幅に上回る性能を示しています。混合精度量子化を行うことで、精度はFP32に近い結果を維持しています。このように、QUILLはスパース性をローカリティに、ローカリティを利用に変換することによって、一貫した速度向上を提供します。