効率的な推論のための推論コスト認識型動的木構築法と大規模言語モデル

Inference-Cost-Aware Dynamic Tree Construction for Efficient Inference in Large Language Models

大規模言語モデル（LLM）は、その自己回帰的設計と大きなサイズのために推論遅延の課題に直面しています。本研究では、推論コストを考慮した動的木構造による新たなデコーディング手法「CAST」を提案します。従来の手法では考慮されていなかったGPU設定やバッチサイズといった重要なシステム変数を動的に反映させることで、推論効率を向上させます。実験では6つの異なるタスクとLLMを用いて、従来のデコーディング手法と比較し、最大で5.2倍の速度向上に成功しました。また、既存の最先端技術に対しても、5%から20%の性能向上を示しました。