階層的推測デコーディングによる高速推論

本記事では、階層的推測デコーディング（HSD）という新しいアルゴリズムを提案します。Transformer言語モデルは、トークン生成数に応じた遅延が避けられず、推測デコーディング手法を用いることでこの遅延を改善できます。HSDは、複数の草案モデルを階層的にスタックし、各モデルがトークンを提案し、次の大きなモデルがそれらを確認する方法を取ります。この手法により、推論遅延を最適化し、従来の技術に比べて最大1.2倍の速度向上を実現します。また、最適な階層の選択が多項式時間で可能であることを示しています。この研究は、生成ラテENCYを軽減するいやり方としてのHSDの実用性を強調します。