適応型スプリットコンピューティングによるメモリおよびレイテンシ制約付きの大規模言語モデル推論

Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing

大規模言語モデル（LLM）は多様な推論タスクで人間に近い性能を達成していますが、リソース制約のあるIoTデバイスへの展開は困難です。これは、膨大なパラメーターとメモリ集約的な自己回帰デコーディングが原因です。既存のスプリットコンピューティング手法は、自己回帰推論の特有の課題に対処できていません。本研究では、LLMのエッジデバイス上での展開のために設計された自己回帰対応のスプリットコンピューティングフレームワークを提案します。主な貢献は3つあります。1つ目は、メモリ不足を防ぐためにモデルを前半と後半で異なる精度レベルに分割する混合精度量子化スキーム「1ポイントスプリット圧縮（OPSC）」の開発。2つ目は、精度を保ちながら通信オーバーヘッドを大幅に低減するための中間圧縮パイプラインの提案。3つ目は、メモリとレイテンシ制約を満たすための統合最適化フレームワークの構築です。このアプローチは、最新の量子化手法と比較して優れたパフォーマンスを示し、推論速度を1.49倍に向上させつつ、モデルの精度を維持または改善します。