CodeRL+: 実行セマンティクスの整合性による強化学習を用いたコード生成の改善

CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment

この記事では、CodeRL+という新たなアプローチを提案しています。大規模言語モデル（LLMs）は、豊富なコードデータから学習することでコード生成に優れていますが、形式的な実行セマンティクスによる機能的正確性との間に基本的なセマンティックギャップがあります。従来の強化学習における検証可能な報酬（RLVR）手法は、テストケースの実行に基づく結果報酬を用いてこのギャップを埋めようとしますが、バイナリの合格/不合格信号だけでは、特に微妙な論理エラーの検出には不十分です。CodeRL+はこの課題を克服し、変数レベルの実行経路を推定することによって、実行セマンティクスの直接学習信号を提供します。多くの実験結果が、CodeRL+が従来の手法よりも優れた成果を上げていることを示しており、特にコード推論やテスト出力生成においても高い精度を記録しています。また、様々なRLアルゴリズムやLLMsに対して強い適用性を示しています。