ParaDySe: トランスフォーマーにおける動的シーケンス長のための並列戦略切り替えフレームワーク

ParaDySe: A Parallel-Strategy Switching Framework for Dynamic Sequence Lengths in Transformer

本論文では、トランスフォーマーを基盤とした大規模言語モデル（LLM）の訓練において、長さが変動する動的シーケンスの処理に関する新しいフレームワーク「ParaDySe」を提案しています。従来のフレームワークでは、静的な並列戦略が採用されており、短いシーケンスに対しては通信の並列化を無効にし、長いシーケンスに対してはメモリ容量の限界を招いていました。ParaDySeは、入力シーケンスに基づいて最適な戦略を即座に適用できるアダプティブな並列戦略切り替えを実現します。具体的には、統一されたテンソルレイアウトを使った並列戦略のモジュラー機能ライブラリを実装し、シーケンスに応じたメモリおよび時間コストモデルを構築します。このフレームワークは、ハイブリッド手法を用いたコストモデルに基づいて動的シーケンスごとに最適なレイヤー単位の戦略を選択する効率的なヒューリスティックアルゴリズムを使用しています。実験結果は、ParaDySeがLLM訓練におけるOOM（Out Of Memory）およびCPC（Communication Parallelism Cancellation）のボトルネックを解決することを示しています。