デコリレーションがビジョントランスフォーマーを加速する

Masked Autoencoder（MAE）によるビジョントランスフォーマー（ViT）の事前学習は、ラベルが少ない環境で高い性能を発揮しますが、計算コストが大きく、商業環境での実用が難しいという課題があります。本研究では、デコリレーションバックプロパゲーション（DBP）の手法をMAE事前学習に統合することで、この問題に対処しています。DBPは各層で入力の相関を段階的に減少させ、収束を加速する最適化手法です。特にエンコーダーに適用することで、安定性を損なうことなく事前学習を迅速化できます。ImageNet-1Kでの事前学習において、DBP-MAEは従来の手法と比較して壁時計時間を21.1％短縮し、炭素排出量を21.4％削減し、セグメンテーションのmIoUを1.1ポイント向上させることが確認されました。これにより、DBPが大規模なViT事前学習において訓練時間とエネルギーの使用を減少させ、下流の性能を向上させる可能性を示しています。