arXiv cs.LG

CAGE: 曲率を考慮したグラディエント推定による正確な量子化対応トレーニング

CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training

http://arxiv.org/abs/2510.18784v1


低ビット量子化対応トレーニング(QAT)において、依然として従来のトレーニングと比べて精度のギャップが存在します。この問題に対処するため、CAGE(Curvature-Aware Gradient Estimation)という新しいQAT手法を提案します。CAGEは、ストレートスルー推定器(STE)の勾配に曲率を考慮した補正を加えることで、量子化によって引き起こされる損失の増加を相殺することを目的としています。この手法は、QATを損失最小化と量子化制約の遵守のバランスをとった多目的な視点から導出され、局所的な曲率情報に依存する原則的な補正項を生み出します。実装面では、最適化手法に依存せず、効率的な実装を提供します。Llamaスタイルの最大800Mパラメータのモデルを事前トレーニングする際、CAGEはW4A4条件下での量子化による損失の10%以上を回復できることが示されています。これにより、曲率を考慮したグラディエント補正が現在の外れ値処理手法を超えて残る性能ギャップを埋められる可能性を示しています。