切り離された利得方策最適化によるフラッシュ思考への道

最近の大規模推論モデル（LRMs）は、教師ありファインチューニング（SFT）や強化学習（RL）を通じて複雑な問題を解決する上で優れたパフォーマンスを示しています。しかし、既存のRLアルゴリズムは、応答が長く、過剰な思考により推論のレイテンシが増加し、特に最小限の推論が求められる簡単なタスクで計算リソースを無駄にする問題に直面しています。この問題を解決するために、我々はDEPOという新しいRLフレームワークを提案します。この方法は、非効率的なトークンの数を削減するための革新的な利得切り離しアルゴリズム、応答全体の長さを減少させるための難易度認識型長さペナルティ、政策最適化におけるバイアスを防ぐための利得クリッピング手法の3つのコアコンポーネントで成り立っています。実験の結果、DEPOはシーケンスの長さを39%削減し、基準モデルよりも全体的な精度を上回る成果を示しました。