arXiv cs.LG

大規模推論モデル強化学習における量子化の影響

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

http://arxiv.org/abs/2511.15694v1


この研究は、大規模な強化学習(RL)が監視なしで強力な推論能力を達成できることを示していますが、量子化が大規模推論モデル(LRM)に与える影響は未解決の課題とされています。著者たちは、ポストトレーニング量子化(PTQ)と量子化対応学習(QAT)が精緻化の文脈で広く研究されているにもかかわらず、RLにおける量子化の影響を体系的に実験し、ポスト-RL量子化モデルと量子化対応RL最適化モデルとの間に数学的ベンチマークにおいて重要なパフォーマンス差があることを発見しました。研究の結果、量子化対応RLトレーニングは学習プロセスに悪影響を及ぼし、一方でPTQやQLoRAはより良いパフォーマンスを示すことがわかりました。この成果は、量子化が大規模推論モデルの学習における新たな考察を促します。