あまり知られていない道: 逐次サンプリングによるLLMの探索強化

本稿では、強化学習（RL）が大規模言語モデル（LLM）の推論能力向上において重要である一方、探索の限界やエントロピー崩壊の問題に直面していることを指摘しています。この問題は、同一の分布から複数の出力を並行して引き出す手法で悪化し、モデルが類似した解に収束してしまうことがあります。提案されたSESA（逐次サンプリングフレームワーク）は、解の多様性を損なわずに、以前の出力に基づいて新たな出力を生成することにより、より広範な探索を可能にします。実験では、SESAが従来のRL手法よりもパスの多様性と崩壊からの回復力において一貫して優れていることが示されました。実世界のタスクでの評価でも、SESAは戦略の探索と全体的な性能を向上させ、成功率を基礎モデルよりも大幅に改善しました。この研究は、RLで訓練されたLLMにおけるより効果的で多様な推論を実現するための構造化された探索アプローチを提案しています。