キャッシュ間通信: 大規模言語モデル間の直接的な意味コミュニケーション

本論文では、複数の大規模言語モデル（LLM）を活用したシステムの新手法「Cache-to-Cache（C2C）」を提案しています。従来のLLM間の通信方法はテキストを介して行われ、内部表現が出力トークンシーケンスに変換されるため、豊かな意味情報が失われ、トークン生成の遅延が発生します。C2Cは、モデルのKV-cacheを直接的に結合し、セマンティック転送を行うことで、この問題を解決します。この新しいパラダイムは、テキスト生成を行うことなく、モデル同士の深い、専門的な意味を利用し、個々のモデルよりも8.5-10.5%の精度向上を実現。さらに、従来のテキスト通信と比較して約3.0-5.0%のパフォーマンス向上と、2.0倍の速度向上を達成しています。