ループネストからシリコンへ：MLIR-AIRを用いたAIワークロードのAMD NPUへのマッピング

本記事では、MLIR-AIRという新しいオープンソースコンパイラスタックを通じて、AIワークロードをAMDのニューラルプロセッシングユニット（NPU）に効率的にマッピングする方法について説明しています。従来の汎用コンパイラは並列性やデータのローカリティを抽象化するため、現代の空間アーキテクチャでは効果が薄くなっています。MLIR-AIRは、高レベルのワークロードと細かい制御が要求される空間アーキテクチャの間のギャップを埋め、非同期操作や階層的な計算資源の構造的表現を提供します。具体的なケーススタディとして、行列の乗算とLLaMA 2モデルのマルチヘッドアテンションの実装を示しており、高い計算効率を達成しています。MLIR-AIRは、非同期実行やタイル化、通信のオーバーラップを活用し、NPUの計算基盤とメモリ階層を効果的に利用したプログラムを生成します。