ロングテールの制御：適応型ドラフトを用いた効率的な推論強化学習トレーニング

本記事では、大規模言語モデル（LLM）の登場がいかに新たな複雑な問題解決のフロンティアを切り開いているかが述べられています。しかし、推論モデルのトレーニングには効率性のボトルネックが存在します。特に、長尾分布の中に数少ない非常に長い応答が占め、実行時間が浪費され、コストが増加しています。この問題を解決するために、TLTというシステムが提案されており、適応型推測デコーディングを統合して、損失なしに推論強化学習のトレーニングを加速します。TLTは、(1) 適応型ドラフターと、(2) 適応型ロールアウトエンジンという二つの相乗効果を持つコンポーネントを使用し、動的な負荷やモデルの進化に対応します。その結果、TLTは最新のシステムと比較して1.7倍以上のトレーニングスピード向上を実現し、モデルの精度を保ちつつ、高品質なドラフトモデルも提供します。