メモリ内処理アーキテクチャ向けのテンソルコンパイラ

本記事では、メモリ内処理（PIM）アーキテクチャ向けのテンソルコンパイラについて論じています。PIMデバイスは、高性能ホストプロセッサ（例：GPU）と統合されることで、機械学習モデル、特に大規模言語モデルのメモリ集約型カーネルを加速します。しかし、ホストプロセッサとPIMコアではデータレイアウトが異なり、これによりデータの再配置が必要となり、性能やプログラマビリティの課題が生じます。本研究では、データの再配置と計算コードの最適化が相互依存しており、共同最適化が求められることを示します。そのために、データ中心の機械学習コンパイラDCCを設計しました。DCCは、データの再配置と計算コードの共同最適化を実現し、高速で正確な性能予測モデルを利用して最適な構成を選定します。評価の結果、DCCはHBM-PIM上で最大7.68倍の速度向上を示し、GPT-3やLLaMA-2の推論にも顕著な加速効果を発揮します。