arXiv cs.AI

キャッシュとアテンションのローカリティ最適化のためのスパンクエリの使用

Using Span Queries to Optimize for Cache and Attention Locality

http://arxiv.org/abs/2511.02749v1


本論文では、スパンクエリを導入し、推論サーバーのインターフェースを一般化することを提案しています。チャットの完了から進化し、さまざまな推論時間のスケーリングや深い推論技術を含むクライアントのニーズに応えるため、推論サーバーは通常チャットの完了に特化して最適化されてきた現状に対し、キャッシュヒット率を大幅に改善することが可能であると示します。特に、スパンクエリは推論呼び出しを結びつける式の木構造であり、入力の順序が重要かどうかという重要な区別に基づいています。スパンクエリの構文と意味論を説明し、自動的に最適化できる手法を提示します。また、vLLMに対してわずかな変更を加えることで、スパンクエリの高性能な実行を実現する方法を示します。スパンクエリを使用することで、特定の非チャットユースケースにおいて10-20倍のTTFT削減を達成できることを実証しました。最後に、スパンクエリのアテンション最適化によって、いわゆるミドルロス問題を回避できることも示されています。