本研究では、言語モデルの推論におけるテスト時のスケーリングを見直し、同じトークン予算と計算リソースのもとで、複数の独立したチェーンを並列実行する方が良いのか、それとも少ないチェーンを逐次的に改良していく方が良いのかを調査しています。5つの最先端オープンソースモデルと3つの難易度の高い推論ベンチマークにおける広範な評価の結果、逐次的スケーリングが95.6%の設定で並列自己一貫性を一貫して上回り、最大で46.7%の精度向上が見られました。さらに、逆エントロピー加重投票と呼ばれる新たな訓練不要の手法を提案し、この方法により逐次的スケーリングの精度がさらに向上します。本研究は、並列推論の主流思想に挑戦し、現代の大規模言語モデルにおける推論手法の paradigmnシフトを求める重要な示唆を与えています。