本論文では、現代のGPUが持つ高性能で非同期データフロー処理を活かすための自動化コンパイラ「Tawa」を提案しています。従来のSIMTプログラミングモデルはこのハードウェアの特性と整合性が取れておらず、プログラマに多くの手動作業と複雑な通信の管理を強いるため、プログラムの効率向上に課題を残しています。Tawaは高レベルのタイルベースプログラムからワープ特化コードを自動生成し、非同期参照という新しいIR抽象化手法を用いて、ワープ間の通信を低レベルのハードウェアに依存せずに表現します。このアプローチにより、プログラムを生産者-消費者の役割に自動的に分割し、データフローを効率的に管理します。NVIDIA H100 GPUを用いた評価では、Tawaが高いハードウェア利用率を実現し、最適化されたcuBLAS GEMMカーネルに対して最大1.1倍の速度向上を示しました。さらに、注意機構のワークロードにおいては、TawaはTritonに対して1.2倍の速度向上を達成しました。