ScaleDL: 分散ディープラーニング負荷に対するスケーラブルで効率的なランタイム予測に向けて

ScaleDL: Towards Scalable and Efficient Runtime Prediction for Distributed Deep Learning Workloads

この記事では、ディープニューラルネットワーク(DNN)が現代のAIサービスの基盤であることが述べられています。DNNのサイズと複雑さが増すにつれて、トレーニングや推論のタスクは分散コンピュータリソースに対して前例のない要求を課しています。このため、ランタイムの正確な予測が開発とリソース配分の最適化に重要です。従来の方法は計算ユニットモデルに依存しており、精度や一般化性に制限があります。本研究では、非線形レイヤーモデリングとグラフニューラルネットワーク(GNN)に基づくクロスレイヤー相互作用機構を組み合わせた新しいフレームワーク「ScaleDL」を提案し、DNNのランタイム予測と異なるネットワークアーキテクチャ間での階層的な一般化を可能にします。さらに、データ収集コストを削減するためにD-optimal法を用いて実験した結果、このアプローチは従来のモデルと比較してランタイム予測の精度と一般化性を向上させたことが示されました。