フェデレーテッドアテンション: エッジネットワークにおける協調型LLM推論のための分散パラダイム

Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over Edge Networks

大規模言語モデル（LLM）はエッジコンピューティングの分野で急速に普及しており、さまざまなアプリケーションシナリオに知的な能力を提供しています。しかし、協力的なシナリオにおける実用的な展開には、プライバシー脆弱性、通信コスト、計算ボトルネックという根本的な課題があります。これに対処するために、本論文ではフェデレーテッドアテンション（FedAttn）を提案します。これは自己注意メカニズムにフェデレーテッドパラダイムを統合した新しい分散型LLM推論フレームワークで、プライバシー保護、通信効率、計算効率を同時に実現します。FedAttnでは、参加者は自身のトークン表現に対してローカルで自己注意を行い、定期的にキーバリューマトリックスを交換・集約しながらLLM応答を協力的に生成します。この構造的二重性とパラメータ最適化の関係を明らかにし、協力的LLM推論のためのフェデレーテッド最適化技術の体系的な移行の基盤を提供します。最終的には、応答の質と通信・計算効率の間のトレードオフを明確にし、実験結果により理論的分析が支持されることを示します。