本記事では、スパース行列-ベクトル積(SpMV)がスパースな大規模言語モデル(LLM)の推論において重要な操作であることを確認し、特に低スパース性(30-90%)の場合の既存の方法が効果的でないことを指摘しました。これに対処するために提案されたMACKO-SpMVは、ストレージオーバーヘッドを削減し、GPUの実行モデルとの互換性を保ちながら効率的なSpMVを実現する設計をしています。実験結果によると、50%のスパース性において、MACKOは密な表現に対して1.5倍のメモリ削減、1.2-1.5倍の速度向上を達成しました。また、cuSPARSEやSputnik、DASPといった他の基準に対しても大幅なスピードアップを示しました。このアプローチにより、実世界のLLMワークロードにおいて50%のスパース性での非構造的プルーニングが正当化されることが示されています。