Fast-dLLM: トレーニング不要の拡散LLM加速技術

この記事では、拡散ベースの大規模言語モデル（Diffusion LLM）の推論速度を改善する新たなアプローチ「Fast-dLLM」を紹介しています。従来のDiffusion LLMは、自動回帰モデルと比較して推論速度が遅く、特にキー・バリュー（KV）キャッシュの不在や同時トークン生成時の質の劣化が原因でした。本研究では、双方向の拡散モデルに特化したブロック単位の近似KVキャッシュ機構を導入し、ほとんどパフォーマンスを損なうことなくキャッシュの再利用を可能にします。また、生成の質の劣化の根本原因をトークンの依存関係の断絶と特定し、確信度に基づく選択的なトークンデコーディング戦略を提案することで、依存関係の違反を軽減し、生成の質を維持します。実験結果によれば、最大27.6倍のスループット向上を実現し、自動回帰モデルとの性能差を縮小させています。