この記事では、自動回帰デコーディングにおけるレイテンシを減少させる手法として、マルチドラフト推測サンプリングの最適化方法を提案しています。具体的には、安価なドラフトモデルが候補トークンを提案し、検証基準に基づいて受け入れるか再サンプリングする仕組みを紹介。この研究では、受け入れ率とデコード効率を向上させるため、複数のドラフトトークンを生成し、受け入れ最大化のための最適輸送問題を解決するアプローチを採用しています。重要な点は、従来の線形計画問題(OTLP)をポリマトロイド理論を用いて凸最適化問題に変換し、効率的に解法を提示したことです。この新しいアルゴリズムは、90%の受け入れ率を達成し、生成された各トークンに対する遅延が100ミリ秒未満であることを実証しています。