一般的なドメインに向けたゼロ強化学習

ゼロ強化学習（Zero-RL）は、大規模言語モデル（LLM）の推論能力を強化する効果的なアプローチとして証明されています。これは、事前に訓練されたモデルに対して、検証可能な報酬を用いた強化学習を直接適用するもので、監視付き微調整段階が不要です。しかし、現在のゼロ-RLの研究は主に数学やプログラミングなど、簡単に検証可能な報酬信号を持つドメインに焦点を当てています。非検証ドメインにおける推論能力を引き出す課題は、十分に探求されていません。このギャップを解消するために、本研究では、検証可能および非検証ドメインの両方でモデルの推論能力を向上させる新しいゼロ-RLパラダイムを提案します。検証可能な報酬と生成報酬モデルを組み合わせ、マルチタスクゼロ-RLトレーニングを実施し、両ドメイン間で推論能力の移転を可能にします。実験結果は、Qwen3-8B-BaseとQwen3-14B-Base上での優れた推論性能を示しています。