プロトタイプからのプロンプト推定による視覚変換器の連合プロンプト調整

Prompt Estimation from Prototypes for Federated Prompt Tuning of Vision Transformers

本記事では、視覚変換器（ViTs）の連合プロンプト調整における「PEP-FedPT」（プロトタイプからのプロンプト推定）というフレームワークを提案しています。従来の視覚プロンプト調整（VPT）は、有限なデータでの大規模モデルのファインチューニングにおいて高い効果を示していますが、異なるクライアント間の一般化やパーソナライズに苦労しています。PEP-FedPTは、クラス固有のプロンプトと共に共有プロンプトを維持し、入力に応じてクラス固有のプロンプトを重み付けして組み合わせる「クラスコンテキスト化混合プロンプト」（CCMP）を用いて、サンプルごとのプロンプトパーソナライズを実現します。この方法は、クライアント依存のトレーニングパラメータを保存することなく、包括的な最適化を行います。CIFAR-100やTinyImageNetなどのデータセットでの評価により、PEP-FedPTは多様なデータの異質性シナリオにおいて従来の最先端手法を上回る結果を示しました。