TOFA: トレーニング不要なワンショットフェデレーテッド適応法を用いた視覚と言語モデル

本記事では、視覚と言語モデル（VLM）を対象とした新しいアプローチ、TOFA（Training-free One-shot Federated Adaptation）を提案しています。この方法は、トレーニングを必要とせず、フェデレーティッド学習環境においてクライアントと中央サーバーの相互作用を最小限に抑えつつ、タスクに関連する特徴を効率的に抽出します。従来の手法は繰り返しトレーニングを行うため、通信コストが高く、攻撃に対する脆弱性が増すという課題があります。TOFAは視覚とテキストのパイプラインを用いて、個別のプロトタイプ分布学習や生成されたローカルテキストプロンプトの整合性評価を行い、データの非均質性に対応します。また、アダプティブな重み調整機構を導入し、予測を統合します。9つの異なるデータセットでの実験により、TOFAの有効性が示されています。