TokenSqueeze: 推論LLM向けの性能を保つ圧縮技術

「TokenSqueeze」は、OpenAIやDeepSeekなどの推論LLMが直面するトークン使用量の増加問題に対処するために開発された新たな手法です。従来のLong2Shortメソッドは、推論の精度を犠牲にしがちでしたが、TokenSqueezeは性能を維持しつつ推論過程を圧縮できます。この手法では、自己生成データを利用し、問題の複雑さに応じた推論深度にマッチしたサンプルを選択することで、過剰な圧縮を防ぎます。また、論理の整合性を保ちながら、推論経路の表現を最適化するための言語調整方法も提案されています。実験結果では、MATH500ベンチマークにおいて、DeepSeek-R1-Distill-Qwen-7Bが50%の平均トークン削減を達成しながら、精度を保持することが確認されました。TokenSqueezeは、多様なアプリケーションで効率的かつ高忠実度な推論を実現します。