arXiv cs.LG

拡散大規模言語モデルにおける推論は動的混乱ゾーンに集中している

Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones

http://arxiv.org/abs/2511.15208v1


本記事では、拡散大規模言語モデル(dLLMs)の推論に関する新たな分析が行われています。従来の強化学習(RL)手法は、デノイジングステップを均等に配分し、すべてのステップを同等に重要視してきましたが、著者らはこの前提を挑戦し、エントロピーに基づく不確実性、Confidence-Margin(CM)不確実性、エントロピー変化率(RoEC)などの指標を用いて「混乱ゾーン」を特定しました。これらのゾーンは最終的な成功や失敗を強く予測することが示されています。さらに、著者は適応的軌道ポリシー最適化(ATPO)を提案しており、重要なステップに動的に勾配更新を再配分することで、推論精度とトレーニングの安定性を大幅に向上させることを目指しています。