LLMベースのマルチエージェントシステムによるPyTorch推論の最適化

本研究では、GPUハードウェア上でのAI推論システムの性能最大化に焦点を当て、従来のアプローチとしてカスタムGPUカーネルの作成や特定のGPUターゲット向けに高レベルコードを調整するモデルコンパイラの使用が行われていることを説明しています。最近の研究では、LLMベースのマルチエージェントシステムがこれらの調整を効果的に行い、既存のコンパイラを上回り、手動のカーネル開発を不要にすることが示されています。しかし、マルチエージェントシステムのダイナミクスについては未確認のままです。本稿では、マルチエージェントによるPyTorch最適化システムを比較する論理的フレームワークを提案し、特定の条件下で最も良い成果を上げる戦略を評価しました。最適化ステップの粒度とパフォーマンスの相関関係についても言及し、様々なタスクでH100 GPU上で平均2.88倍の速度向上を達成する実装例を示しています。