DeepCompress: 推論チェーンを動的に探索し圧縮するための二重報酬戦略

DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains

DeepCompressは、大規模推論モデル（LRM）の効率と精度を同時に向上させる新しいフレームワークを提案しています。LRMは、単純な問題を「考えすぎ」たり、複雑な問題を「考えなさすぎ」る認知の非効率性が課題です。従来の手法は、正確性を犠牲にして効率を向上させることが一般的でしたが、DeepCompressでは、問題を「簡単」と「難しい」とリアルタイムで分類し、短い思考過程では簡単な問題に、長い思考過程では難しい問題に対して探索を促します。この二重報酬戦略により、モデルは独自にChain-of-Thought（CoT）の長さを調整し、習得済みの問題では推論を圧縮し、挑戦的な問題では推論を拡張できるようになります。実験結果では、数学的なベンチマークにおいて、DeepCompressは従来の手法に比べて優れた精度を達成しながら、トークンの効率を大幅に向上させています。