arXiv cs.LG

SMART: ドラゴンフライシステムにおけるアプリケーションランタイム予測のための代理モデル

SMART: A Surrogate Model for Predicting Application Runtime in Dragonfly Systems

http://arxiv.org/abs/2511.11111v1


本稿では、高性能コンピューティングにおける主要な相互接続技術であるドラゴンフライネットワークのアプリケーションランタイムを予測するための代理モデル「SMART」を提案します。ドラゴンフライネットワークは高いラジクスと低い直径を特徴としていますが、共用ネットワークリンク上でのワークロード干渉が大きな課題です。従来の並列離散事象シミュレーション(PDES)は計算コストが高く、大規模またはリアルタイムのシナリオには不向きです。そこで、データ駆動型の代理モデルを組み込んだハイブリッドシミュレーションが重要な解決策となります。SMARTは、グラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)を組み合わせ、ポートレベルのルーターデータから空間的および時間的パターンを抽出します。結果として、SMARTは既存の統計および機械学習の手法を上回り、ドラゴンフライネットワークのアプリケーションランタイムを正確に予測し、効率的なハイブリッドシミュレーションを支援します。