Nvidia DGX SparkとApple Mac StudioでEXO 1.0を使った4倍速LLM推論

NVIDIAのDGX SparkとAppleのMac Studioを組み合わせた新しい手法により、EXO 1.0を利用してLLM（大規模言語モデル）の推論速度を4倍に向上させることが可能になりました。DGX Sparkは世界最小のAIスパコンとされ、高いFP16パフォーマンスを持つ一方で、Mac Studioは統一メモリを活用しつつもGPU性能はDGX Sparkの4分の1です。記事では、LLM推論のパフォーマンスを左右する二つの主要な指標、TTFT（ファーストトークンまでの時間）とTPS（トークン生成速度）に焦点を当て、各フェーズで特定のハードウェアを利用することで最適化を図っています。具体的には、前処理には計算能力の高いDGX Sparkを、デコードにはメモリ帯域幅の広いMac Studioを使用し、処理を並行して行うことで、通信コストを削減し、全体の効率を向上させる方法が提案されています。