AdaSPEC: 効率的な投機デコーダのための選択的知識蒸留

本記事では、投機デコーディング（SD）が大規模言語モデルの推論を加速する方法を紹介しています。SDは、小さなドラフトモデルが予測を生成し、それを大きなターゲットモデルが検証する仕組みです。このプロセスの効果はこれらのモデルの整合性に依存しており、通常は知識蒸留（KD）がその整合性を向上させます。しかし、従来のKD手法は、すべてのトークンにおいてドラフトモデルとターゲットモデルのKLダイバージェンスを最小化することを目指しており、SDの真の目標であるトークン受容率の最大化とは乖離しています。このため、ドラフトモデルはターゲットモデルの知識を十分に吸収できず、性能が最適になりません。そこで、本記事では、選択的トークンフィルタリングをKDプロセスに組み込んだ新しい手法「AdaSPEC」を提案します。この手法では、参照モデルを使用してフィットの難しいトークンを特定し除外することで、ドラフトモデルがよりターゲットモデルと整合するようにします。これにより、全体のトークン受容率が向上し、生成品質も損なわれません。AdaSPECはさまざまなタスクで評価され、従来の最先端手法を上回る結果を示しました。