推論カリキュラム：数学から広範なLLM推論をブートストラップする

この記事では、強化学習（RL）を利用して大規模な言語モデル（LLM）の推論能力を引き出す手法である「推論カリキュラム」を提案しています。推論カリキュラムは、まず数学などの事前学習に適した領域で推論スキルを発揮させ、その後、さまざまな領域を通じてこれらのスキルを適応・洗練させる二段階のカリキュラムです。第一段階では、数学限定のRLを通じて短期間の冷却スタートを行い、検証可能な報酬を用いて推論スキルを発展させます。第二段階では、複数の領域を混合したデータで共同RLを実施し、スキルを転送・統合します。このカリキュラムはシンプルで、標準的な検証チェックを超えた特別な報酬モデルは必要としません。Qwen3-4BやLlama-3.1-8Bなどのモデルを用いたテストの結果、推論カリキュラムは一貫して向上した結果を示しました。