Torchcommsは、PyTorch Distributed(PTD)向けの新しい実験的で軽量な通信APIです。この初版では、信頼性の高い大規模分散トレーニングを実現するための基本的な通信プリミティブが提供されています。torchcommsは、100,000以上のGPUでスケーリング可能な新しいバックエンドNCCLXをオープンソースとして公開し、開発者や研究者が迅速に新しいアイデアを試せる環境を整えています。今後1年の間に、プロトタイプの構築、フォールトトレランスの強化、デバイス中心の通信パターンの最適化を行う新機能を導入し、APIの発展にコミュニティのフィードバックを取り入れながら進めていきます。最終的には、torchcommsはPyTorch Distributedの新しい基盤として機能し、スケーラブルでフォールトトレラントな分散トレーニングを実現することを目指しています。