arXiv cs.LG

トランスフォーマーのツリー推論におけるカリキュラムの証明可能な利点

Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training

http://arxiv.org/abs/2511.07372v1


この研究では、トランスフォーマーを利用した大規模言語モデル(LLM)のポストトレーニング段階において、カリキュラム学習技術が非カリキュラムアプローチよりも推論性能を向上させることが広く観察されているが、その理由と効果の程度に関する理論的理解が不足している点を指摘しています。著者は、学習段階を管理可能なステップへと段階的に進めることが、難しい推論タスクに直接取り組むよりも効率的であるという直観に基づいた理論的枠組みを開発しました。この枠組みの下で、カリキュラムポストトレーニングは指数的な複雑性ボトルネックを回避できることを示しています。また、数学的問題を解決する際のChain-of-Thoughts(CoTs)を地域的にモデル化し、段階的な深化またはヒントの軽減を行うことで、得られた結果に基づいて強化学習の微調整によって高い精度を達成できることを明らかにしています。