ScaleNet: インクリメンタルパラメータで事前学習済みニューラルネットワークをスケールアップする

本論文では、ビジョントランスフォーマー（ViT）の効率的なスケーリング手法であるScaleNetを提案します。大規模なモデルは優れた性能を発揮しますが、トレーニングには多大な計算リソースとコストがかかります。ScaleNetは、既存の事前学習済みモデルに基づいて、パラメータの増加を最小限に抑えながらモデルの迅速な拡張を可能にします。具体的には、事前学習済みViTに追加のレイヤーを挿入し、レイヤーごとの重み共有を利用してパラメータの効率を保ちます。追加された各レイヤーは、事前学習済みモデルの対応するレイヤーからパラメータテンソルを共有し、パフォーマンス低下を防ぐために調整パラメータを導入します。実験では、ImageNet-1Kデータセット上でトレーニングからの精度向上を実現し、特に物体検出タスクにおいてもその有効性が示されました。これにより、ScaleNetはビジョン領域での応用において大きな可能性を秘めています。