arXiv cs.LG

学習されたシャッフルによる効率的な動的構造スパーストレーニング

Efficient Dynamic Structured Sparse Training with Learned Shuffles

http://arxiv.org/abs/2510.14812v1


この記事では、構造的スパース性が現代のGPUでのトレーニングと推論を加速させる一方で、非構造的動的スパーストレーニング(DST)に比べて精度が劣る点に着目しています。この精度の低下は、固定されたブロックやN:Mレイアウトが考えられるマスクの全てを探索できないため生じます。著者たちは、各層に対して構造化された重み行列とともに単一の順列行列を学習することでこのギャップを埋めることを提案しています。このアプローチをブロック、N:M、および対角構造に適用した結果、画像認識において90~95%のスパース性で非構造的なベースラインと同等の精度を保ちながら、トレーニングと推論がそれぞれ最大1.21倍および2.9倍速くなることが示されました。