arXiv cs.LG

GRATING: 低遅延かつメモリ効率の良いデバイス上の意味的選択

GRATING: Low-Latency and Memory-Efficient Semantic Selection on Device

http://arxiv.org/abs/2510.15620v1


GRATINGは、デバイス上での低遅延かつメモリ効率の良い意味的選択を実現する新しいシステムです。近年のAIサービスにおいて、セマンティックなトップK選択は重要ですが、従来の手法では遅延とメモリの要求が高いことが課題でした。この研究では、相対的な順位付けが重要であり、正確なスコアは必ずしも必要ではないことを明らかにしました。また、中間層での相対順位の安定化を活用し、フル推論を完了する前にプルーニングの機会を得ることができる点にも注目しています。GRATINGは、候補全体を一括で見ることによって、段階的なクラスターのプルーニングを通じて遅延を削減し、計算とI/Oの重なりを戦略的に管理することでピークメモリの使用を制限します。評価の結果、GRATINGは既存の手法に比べて最大89.0%の遅延削減と94.9%のメモリ削減を達成しました。