FedAdamW: フェデレート学習の大規模モデル向け通信効率の良い最適化手法と収束および一般化の保証

FedAdamW: A Communication-Efficient Optimizer with Convergence and Generalization Guarantees for Federated Large Models

FedAdamWは、フェデレート学習（FL）環境において大規模モデルの効率的なトレーニングを実現するために開発された最適化アルゴリズムです。従来のAdamWの適用にはデータの異質性やローカルの過適合により問題がありました。FedAdamWは、ローカル更新をグローバル更新に整合させるローカル補正機構とデカップル重み減衰を利用することで、ローカルの過適合を軽減します。また、第二モーメントの推定値の平均を効率的に集約し、バリアンスを減少させる特徴があります。理論的には、FedAdamWは非均質性の仮定なしで線形収束速度を達成できることが示されています。実験では、言語モデルと視覚モデルにおいてFedAdamWの有効性が確認され、通信ラウンドの削減とテスト精度の向上に成功しました。