依存関係に基づくクエリ分解と論理的な内容拡張によるLLM推論の改善

Improving LLM Reasoning via Dependency-Aware Query Decomposition and Logic-Parallel Content Expansion

大規模言語モデル（LLM）の実時間Webアプリケーションへの統合は、高品質で複雑な推論を要求される一方で、低遅延・高スループットも求められるため、根本的なWebインフラの課題を生じます。従来のLLM推論は、計算効率が低い逐次生成や厳格な推論戦略に制約されており、Webサービスにおける重要なボトルネックとなっています。これに対処するために提案されたのが『Orion』という新しい推論フレームワークで、依存関係を考慮したクエリ分解と論理的に並行した内容拡張を実現します。このフレームワークは、クエリ推論プロセスを『キーポイントの生成』と『内容の並行拡張』の2段階に分解し、GPUの計算特性を活用して多数のクエリにわたって並行性を持たせることにより、推論性能を大幅に向上させます。実験結果により、Orionはトークン生成速度を4.33倍、応答のレイテンシを3.42倍改善し、推論質も18.75%向上することが示されています。