パズルのピースとしてのレイヤー：レイヤー連結による大規模言語モデルの圧縮

Layer as Puzzle Pieces: Compressing Large Language Models through Layer Concatenation

大規模言語モデルは自然言語処理タスクに優れていますが、その巨大なサイズは高い計算とストレージの要求をもたらします。最近の研究では、レイヤーごとの構造的プルーニングを通じてモデルサイズの削減が試みられていますが、プルーニングされた部分の能力を保持することが無視されています。本研究では、構造的プルーニングの限界を再評価し、直接的なレイヤー削除による性能低下、非効率的な線形重みレイヤーの集約、効果的な事後トレーニング回復メカニズムの欠如といった課題を明らかにしました。これらに対処するために、進行的レイヤープルーニングフレームワークと連結ベースのマージ技術、階層的な蒸留プロセスを提案します。具体的には、チャネル感度メトリックを導入し、重要なチャネルを選択した後、連結ベースのレイヤーマージ法を用いて、隣接するレイヤー間で最も重要なチャネルを融合し、モデルサイズの逐次的削減を実現します。実験では、LLaMA-2-7bモデルの30%のパラメータをプルーニングした際、元の平均精度の83%を保持し、最先端の性能を達成することが示されました。