HackerNews

Nvidia DGX SparkとApple Mac StudioでEXO 1.0を使った4倍速LLM推論

Nvidia DGX Spark and Apple Mac Studio = 4x Faster LLM Inference with EXO 1.0

https://blog.exolabs.net/nvidia-dgx-spark/


NVIDIAのDGX SparkとAppleのMac Studioを組み合わせた新しい手法により、EXO 1.0を利用してLLM(大規模言語モデル)の推論速度を4倍に向上させることが可能になりました。DGX Sparkは世界最小のAIスパコンとされ、高いFP16パフォーマンスを持つ一方で、Mac Studioは統一メモリを活用しつつもGPU性能はDGX Sparkの4分の1です。記事では、LLM推論のパフォーマンスを左右する二つの主要な指標、TTFT(ファーストトークンまでの時間)とTPS(トークン生成速度)に焦点を当て、各フェーズで特定のハードウェアを利用することで最適化を図っています。具体的には、前処理には計算能力の高いDGX Sparkを、デコードにはメモリ帯域幅の広いMac Studioを使用し、処理を並行して行うことで、通信コストを削減し、全体の効率を向上させる方法が提案されています。