テンソル並列LoRAサービスにおける通信オーバーヘッドを排除するブロック対角LoRA

Block-Diagonal LoRA for Eliminating Communication Overhead in Tensor Parallel LoRA Serving

本研究では、複数のLoRAアダプターを同時に使用する際の通信オーバーヘッドを削減するために、ブロック対角LoRAを提案しています。従来の方法では、LoRAアダプターとベースモデルの重みを単純に統合することができず、アダプターの切り替えによってオーバーヘッドが発生します。そこで、LoRAの計算はベースLLMの計算から分離し、デバイスごとにアダプターをシャーディングする方法をS-LoRAとして提案しました。しかし、S-LoRAのシャーディング戦略には理論的には小さいものの、実際には大きな通信オーバーヘッドが存在します。本研究のブロック対角LoRAは、LoRAアダプターを追加の通信なしでシャーディングする新しい方法を提供します。実験を通じて、提案手法は標準的なLoRAと同様にパラメータ効率が高く、S-LoRAに比べて大幅なエンドツーエンドのスピードアップを実現することを示しています。