arXiv cs.AI

STaMP: シーケンス変換と混合精度による低精度活性化量子化

STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization

http://arxiv.org/abs/2510.26771v1


「STaMP: シーケンス変換と混合精度による低精度活性化量子化」という論文では、生成AIモデルの推論遅延、電力消費、およびメモリフットプリントを削減するために、量子化が重要な手法であると述べています。しかし、活性化を8ビット未満に量子化すると精度が大幅に低下する問題も指摘されています。この研究では、シーケンス次元に沿った線形変換を適用する新しい量子化戦略「STaMP」を提案し、言語および視覚データの強い局所相関を利用します。具体的には、各中間活性化において少数のトークンを高精度で保持することにより、平均的な活性化ビット幅を低下させながらモデル精度を維持することが可能になります。STaMPの性能は最近のLVMやLLMアーキテクチャで評価され、低ビット幅の活性化量子化が大幅に改善されることが示されました。