TuckA: 効率的ファインチューニングのための階層型コンパクトテンソルエキスパート

この記事では、事前学習済みモデルの効率的なファインチューニングのための新しい手法「TuckA」を提案しています。TuckAは、複雑なタスクにおけるデータの多様性に対処するために、複数の小さな適応エキスパートを統合し、コンパクトな構造を実現します。主な特徴として、(i) タッカー分解を用いたコンパクトな3Dテンソルの生成、(ii) 専門家を異なる粒度でグループ化する階層的戦略、(iii) 効率的なバッチレベルのルーティングメカニズム、(iv) 理論に基づくデータ意識の初期化による専門家の負荷の平準化が挙げられます。これにより、従来の方法よりも多くのデータパターンを効果的に捕捉できることが実験結果から示されています。この研究は、自然言語理解や画像分類、数学的推論のベンチマークにおいて、その有効性を証明しています。