OptPipe：LLMトレーニングのためのメモリおよびスケジューリング最適化パイプライン並列処理

本研究では、大規模言語モデル（LLM）のトレーニングにおけるパイプライン並列処理（PP）を最適化する新手法「OptPipe」を提案しています。従来の手法はメモリの使用効率を向上させることを目指していますが、多くは経験則に基づいており、メモリ、計算、スケジューリングの遅延間の微細なトレードオフを見落としています。ここでは、スケジューリング問題を制約付き最適化問題として再定義し、メモリ容量、アクティベーションの再利用、パイプラインのバブル最小化を同時に考慮します。このモデルを解決することで、パイプラインのバブルを削減しながら厳しいメモリ制約を守る微細なスケジュールを生成できます。実験結果により、我々の手法がスループットとメモリ利用効率を一貫して改善することが示され、特に同じデバイスのメモリ制限内でアイドル時間を最大50％削減し、制限されたメモリ予算内でより大きなモデルのトレーニングを可能にします。