マルチGPUのパフォーマンス税の排除: 効率的な分散LLMのためのシステムアプローチ

Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs

本記事では、大規模言語モデル（LLM）の処理負荷が複数のGPUによる分散実行に依存する中で、従来のバルク同期並列（BSP）モデルが引き起こすパフォーマンスの非効率性について論じています。著者たちは、これらのボトルネックを分析するための枠組みとして「三つの税」（バルク同期税、カーネル間データ局所性税、カーネル起動オーバーヘッド税）を提案しています。彼らは、これらの非効率性を解消するために、柔軟なプログラミングパターンを設計する新しいライブラリを利用し、微細なデータフロー同期を可能にすることで効率を向上させています。このアプローチを適用することで、BSPベースの方法と比較してエンドツーエンドのレイテンシが10-20%向上することが示されており、分散LLMワークロードのプログラマビリティと効率性を高める新たなパラダイムを確立しています。