LoRAQuant: LoRAのミックス精度量子化による超低ビット化

LoRA（Low-Rank Adaptation）は、大規模言語モデル（LLM）のパラメータ効率的な微調整手法として人気を集めています。多くの実世界のシナリオでは、複数のアダプタを同時に読み込むことが必要で、これによりLLMのカスタマイズや多様なタスクのサポートが可能になります。しかし、各アダプタは個別では軽量でも、スケールにおいてはコストが大きくなります。そこで提案されるのがLoRAQuantであり、LoRAに特化した混合精度のポストトレーニング量子化手法です。具体的には、ここでは特異値分解（SVD）を用いて各アダプタを再パラメータ化し、重要な情報を特定の行や列に集中させます。その結果、重要な成分は高精度で量子化し、その他は超低ビット幅で量子化することができます。LLaMA 2-7B、LLaMA 2-13B、Mistral 7Bモデルに対する包括的な実験により、LoRAQuantが他の量子化手法よりも大幅に低いビット数を使用しながら、同等またはそれ以上のパフォーマンスを達成することが示されました。