MTraining: 効率的な超長コンテキスト学習のための分散動的スパースアテンション

MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training

この論文では、長大なコンテキストウィンドウが大規模言語モデル（LLM）の標準機能となったことを背景に、動的スパースアテンションを用いたMTrainingという新しい分散学習手法を提案しています。MTrainingは、長大なコンテキストのための効率的な訓練を可能にするために、ダイナミックスパーストレーニングパターン、バランスの取れたスパースリングアテンション、および階層的スパースリングアテンションの3つの主要なコンポーネントを統合しています。この方法は、計算の不均衡や通信のオーバーヘッドに対処することを目指しています。実験では、Qwen2.5-3Bを32Kから512Kトークンに拡張し、最大6倍の訓練スループットを達成しつつ、モデルの精度を維持できることを示しました。