この記事では、強化学習を用いたトレーニング後の大規模言語モデル(LLM)が示す優れた推論能力について論じています。これまでの研究は、強化学習中に現れる新しい行動を分離することに焦点を当ててきましたが、本研究では異なるアプローチを採用しています。著者たちは、追加のトレーニングなしでベースモデルからサンプリングによって推論能力を引き出せるかを探求しています。マルコフ連鎖モンテカルロ(MCMC)技術に触発されて、ベースモデルの尤度を利用した単純な反復サンプリングアルゴリズムを提案しています。このアルゴリズムは、さまざまなベースモデルにおいて、MATH500やHumanEval、GPQAといった単一ショットタスクにおいて、強化学習よりも優れた推論能力を発揮することが実証されています。さらに、サンプラーは強化学習に特有の多様性の崩壊を回避し、トレーニングやキュレーションされたデータセットを必要としないため、広範囲な適用が期待されます。