大規模言語モデル(LLMs)の推論能力は強化学習を通じて大幅に向上しましたが、自己の推論の検証を一貫して行うことにはまだ課題があります。本研究では、LLMsの自己検証能力を向上させ、その能力が推論性能のさらに高い改善に寄与できるかどうかを探求しています。提案するGRPO-Verifアルゴリズムは、解法生成と自己検証を統一された損失関数内で共同最適化し、検証信号の重みを調整可能なハイパーパラメータにより制御します。実験からは、我々の方法が自己検証能力を高めつつ推論性能を維持することが示されました。この研究は、LLMsの推論能力を強化するための新しいアプローチを提供します。