DartQuant: LLM量子化のための効率的な回転分布キャリブレーション

DartQuantは、LLM（大規模言語モデル）の量子化における回転分布キャリブレーションの効率的な手法を提案します。量子化は大規模モデルの推論を加速する重要な役割を果たしますが、従来の回転最適化アルゴリズムは高い計算コストと過学習のリスクがあります。DartQuantは、アクティベーションの分布を制約することで回転の最適化を簡素化し、タスク固有の損失への依存性を減少させ、過学習のリスクを軽減します。また、QR-Orth最適化スキームを導入し、従来の価格的に高い交互最適化を効率的な解法に置き換えました。70Bモデルに対する実験では、DartQuantは47倍の加速と10倍のメモリ節約を達成し、リソースに制約のある環境でも大規模言語モデルの量子化が実現可能であることを示しました。