重み分散増幅器が高スパース性ワンショットプルーニングの精度向上に寄与

ディープニューラルネットワークは画像認識タスクで優れた性能を発揮しますが、大量のパラメータが現実のアプリケーションにおいて実用性を損ねています。最近、ワンショットプルーニングが追加のトレーニングなしでモデルサイズを縮小する効果的な戦略として注目されています。しかし、標準的な目的関数で訓練されたモデルは、積極的にプルーニングを行うと精度が大幅に低下することがあります。一部のプルーニングに強い最適化手法（例：SAM、CrAM）は、パラメータ空間のフラットな領域にモデルを誘導し、精度の低下を軽減しますが、計算コストがかかるという欠点があります。本研究では、トレーニング中にモデルパラメータの分散を意図的に増加させる「重み分散増幅器（VAR）」を提案し、分散が高いパラメータがプルーニングに対してよりロバストであるとの新たな発見を示しています。VARはこの特性を活用し、重みの分布における変動を促進することで、プルーニングの悪影響を軽減します。さらに、VARの収束特性に関する理論分析と、その優れたプルーニングロバスト性を示す豊富な実証結果を提供しています。