arXiv cs.LG

理論的視点から見た多基本性投機デコーディング

Polybasic Speculative Decoding Through a Theoretical Perspective

http://arxiv.org/abs/2510.26527v1


大規模言語モデル(LLMs)の展開において、推論の待機時間は重要なボトルネックとなっています。最近、投機的デコーディング手法が、出力分布を損なうことなく推論を加速する可能性を示しましたが、従来の研究は二元的な下書き-検証フレームワークに依存し、厳密な理論的基盤を欠いていました。本論文では、新たに「多基本性」投機的デコーディングフレームワークを提案し、包括的な理論的分析に基づいています。特に、複数モデルの投機的デコーディングシステムの最適な推論時間を特徴づける根本的な定理を証明し、二元的アプローチを超えてより一般的な多基本モデルに拡張する方法を示しました。実験結果は、LLaMA2-Chat 7BやLLaMA3-8Bなどの複数のモデルファミリーで、推論を最大4.43倍まで加速できることを示しています。本研究は、理論的証明と実装コードを公開し、多基本性投機デコーディングのさらなる調査を促進します。