arXiv cs.LG

ブロック回転がMXFP4量子化に必要なすべて

Block Rotation is All You Need for MXFP4 Quantization

http://arxiv.org/abs/2511.04214v1


この記事では、大規模言語モデル(LLMs)の効率的なデプロイメントに向けた、ポストトレーニング量子化(PTQ)の新たなアプローチを提案しています。特に、MXFP4という新しいFP4フォーマットにおけるW4A4の正確な量子化の課題に焦点を当てています。従来の手法は主にINT4形式向けに設計されているため、MXFP4との互換性の問題が浮上しています。著者たちは、MXFP4形式に基づくPTQ手法の包括的なベンチマークを確立し、回転に基づくアプローチの非互換性の根本原因を分析しています。この研究を通じて、シンプルながらも効果的なブロック回転戦略を提案し、様々なLLMsにおいて精度の大幅な改善を達成したことを報告しています。これにより、実務者に対する明確な指針が示され、低精度フォーマットにおけるPTQ研究の進展が期待されます。