Scaf-GRPO: LLMの推論を強化するためのスキャフォールド群相対ポリシー最適化

Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

本記事では、Scaf-GRPO（Scaffolded Group Relative Policy Optimization）という新しい学習フレームワークを提案しています。このアプローチは、大規模言語モデル（LLM）の複雑な推論能力を向上させるためのもので、従来の強化学習技術の限界を克服することを目指しています。特に、モデルが現在の能力を超えた問題に直面した際の「学習崖」現象を克服するために設計されています。Scaf-GRPOは、モデルの独立した学習が停滞した時にのみ、段階的なヒントを用いて問題解決を促します。この方法では、抽象的な概念から具体的なステップまで、さまざまなヒントを提供することで、モデルが自ら解法を構築できるようになります。数学のベンチマークテストでの実験結果によると、Scaf-GRPOはQwen2.5-Math-7BモデルのAIME24ベンチマークスコアを、従来のGRPOの基準に対して相対的に44.3%向上させることが示されました。このフレームワークは、LLMの自律的な推論能力を向上させる重要なステップを提供しています。