LLM圧縮におけるタダ飯: プルーニング後の再訓練の再考

ニューラルネットワークのプルーニングは通常、性能低下を回復するためにモデルの再訓練を必要としますが、最新の大規模言語モデル（LLM）のプルーニング手法は、小セットのキャリブレーションデータを用いて層ごとのマスク選択と再構築問題を解決し、フル再訓練を避けることを目指しています。本研究では、プルーニング後の残りの重みを再構築または再訓練する際の重要な設計選択肢を探ります。特に、各トランスフォーマーブロック内で注意機構とMLPコンポーネントを個別に再構築することが、リソース効率が高く、かつ最良のパープレキシティを達成する「タダ飯」のシナリオであることを観察しました。さらに、シンプルで効率的なプルーニング基準が複雑なアプローチを上回る場合があることも示されており、再構築の重要性が浮き彫りになっています。これにより、再訓練を避けるべきだという従来の考えに挑戦する重要な知見が得られました。