arXiv cs.LG

T-SAR: CPU専用三値LLM推論のためのフルスタック共同設計(インプレースSIMD ALU再編成を通じて)

T-SAR: A Full-Stack Co-design for CPU-Only Ternary LLM Inference via In-Place SIMD ALU Reorganization

http://arxiv.org/abs/2511.13676v1


記事では、最近の大規模言語モデル(LLM)における進展がCPUを主に使用するエッジプラットフォームの計算能力とメモリ容量を上回っていることを指摘し、効率的かつスケーラブルなデプロイについての課題を述べています。三値化は資源の大幅な節約を可能にしますが、従来のCPUソリューションはメモリベースのルックアップテーブル(LUT)に依存しており、スケーラビリティに制約があります。本論文では、T-SARという初のフレームワークを提案し、最小限のハードウェア改良でSIMDレジスタファイルを動的なインレジスタLUT生成に再利用することで、CPU上でスケーラブルな三値LLM推論を実現しています。これにより、メモリボトルネックを排除し、データレベルの並列性を最大化し、GEMMのレイテンシとGEMVのスループットをそれぞれ5.6倍から24.5倍および1.1倍から86.2倍改善しました。T-SARはNVIDIA Jetson AGX Orinの2.5倍から4.9倍のエネルギー効率を達成し、エッジプラットフォームでの効率的なLLM推論の実用的なアプローチを確立しています。