本論文では、分散行列乗算のためのユニバーサルな一方向アルゴリズムを提案します。これまでの研究は、さまざまな問題サイズおよび分割方法に対応するアルゴリズムを多数開発してきましたが、既存のアルゴリズムは特定の分割方法に限られており、全ての可能な分割方法をサポートするには複数の実装が必要でした。本論文は、分割方法やレプリケーションファクターのすべての組み合わせをサポートする、スライシング(インデックス算術)を用いた一方向アルゴリズムを紹介します。このアルゴリズムは、重複するタイルの集合を計算し、ローカルな行列乗算を特定、最適化された中間表現に整理することで、パフォーマンスを最大化します。高レベルなC++ベースのPGASプログラミングフレームワークを使用して実装され、GPU間の直接通信を実現しています。評価の結果、様々な分割方法やレプリケーションファクターにおいて、PyTorch DTensorと競合するパフォーマンスを示しました。