本稿では、強化学習(RL)に基づく後処理手法が大規模推論モデル(LRM)の多段階推論を可能にする重要性について述べています。しかし、現在の報酬スキームは一般的に成果中心です。そこで、PM4GRPOという推論対応のグループ相対ポリシー最適化(GRPO)手法を提案し、標準的な回答/形式報酬に加え、推論プロセスに関するシグナルを強化します。このために、プロセスマイニング技術を用いて、ポリシーモデルの推論が事前に訓練された教師モデルとどれほど一致しているかを測定するスカラ適合報酬を計算します。5つのベンチマークにおける実証結果から、PM4GRPOがGRPOベースの後処理手法と比較して大きく性能を向上させることが示され、プロセスマイニングを活用することでポリシーモデルの推論能力が効果的に強化されることが示されました。