大規模言語モデル(LLM)の後処理では、トレーニングしたモデルを使用してトークンを生成する際にローアウトがトレーニング時間の大部分を占めます。SpecActorでは、推測デコーディングによって高速なローアウトを実現し、小さなモデルを利用して並列化できない生成を加速し、元のモデルによる出力の迅速な並列検証で正確性を保証しています。SpecActorは、(1) GPU計算効率を最大化する動的非結合型推測実行方法と、(2) ローアウト進行に応じて異なる下書き法を選択・結合する動的ベスト・オブ・N推測方法を用いて、推測ロールアウトの2つの基本的な課題に対処します。これにより、最適な下書き法が事前に知られていない場合でも推測精度が大幅に向上します。{ extsys}は、一般的な後処理の基準に比べて1.3~1.7倍、推測デコーディングを単純に適用した場合よりも1.3~1.5倍速くなります。