メモリ制約下でのファインチューニングに関するトレーニングダイナミクスの研究

深層ニューラルネットワークのメモリ効率を高めることは、モデルのサイズが大きくなるにつれて重要性を増しています。本研究では、アーキテクチャに依存する更新の層の重要性と、動的確率的チャネル選択に基づいて新しい転送学習スキーム「TraDy」を提案します。この手法は、あらかじめ選定された層内でエポック間にチャネルを確率的に再サンプリングする動的チャネル選択アプローチを導入しています。多くの実験では、TraDyが様々な下流タスクやアーキテクチャにおいて最先端のパフォーマンスを達成しつつ、メモリ制約を厳守することが示され、最大で99%の活性化スパース性、95%の重み導関数スパース性、および重み導関数計算における97%のFLOP削減を実現しています。