エネルギー効率的でデクオンタイズ不要なQ-LLMs: 重要な価値の軽減に向けたスパイキングニューラルネットワークのアプローチ

Energy-Efficient and Dequantization-Free Q-LLMs: A Spiking Neural Network Approach to Salient Value Mitigation

大規模言語モデル（LLMs）の時代において、重みの量子化はエッジデバイスでのモデル適合に役立ちますが、エネルギー制約のあるハードウェアにはいくつかの課題があります。具体的には、量子化後でもMAC操作がエネルギー消費の大部分を占め、デクオンタイズが追加の計算とデータ移動を引き起こして遅延とエネルギーを増加させます。また、均一なパラメータのビット幅は重要な値を制限し、現在のマトリックスハードウェアでは実用的でありません。このような中、脳にインスパイアされたスパイキングニューラルネットワーク（SNN）は、バイナリスパイクを用いた情報表現により、エネルギー効率的な混合精度計算を自然にサポートします。今回提案するSpikeQuantは、重要な値に選択的に混合精度の量子化を適用し、ビット幅の異なる動的な混合ストレージを実現します。実験結果は、SpikeQuantが既存の方法と比べてエネルギーコストを最大4.6倍削減し、正確かつエネルギー効率的なLLMの展開において有効性を示しています。