arXiv cs.LG

TwIST: トランスフォーマーにおける独立サブネットワークトレーニングによる宝くじの操作

TwIST: Rigging the Lottery in Transformers with Independent Subnetwork Training

http://arxiv.org/abs/2511.03983v1


TwISTは、大規模言語モデル(LLM)の効率的なスパース化を実現するための分散トレーニングフレームワークです。この方法では、複数のサブネットワークを並行してトレーニングし、定期的にそのパラメータを集約し、新しいサブネットワークを再サンプリングします。このプロセスにより、高品質なサブネットワーク(「ゴールデンチケット」)を特定することができ、トレーニング後のキャリブレーションやヘッシアンベースの回復を必要としません。TwISTは、デプロイ時にゼロコストの剪定を可能にし、最先端のポストトレーニングスパース化手法と競争力のあるパープレキシティを達成します。特に高いスパース性が求められる状況下では、TwISTは既存の手法を大きく上回り、具体的には23.14 PPLを達成しました。また、TwISTは、非構造的な剪定とは異なり、構造化された密な行列を生成し、商用ハードウェア上での実用的な推論速度の向上とメモリ削減を提供します。TwISTは、追加の微調整や回復オーバーヘッドなしに、デプロイ可能なスパースLLMsへの効率的なトレーニング経路を提供します。