MX+: 効率的な大規模言語モデルの提供のためのマイクロスケーリング形式の限界を押し広げる

MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving

この記事では、大規模言語モデル（LLM）を効果的に提供するための低精度データ形式について論じています。これまで多くの低精度形式が提案されてきましたが、一般的にソフトウェアフレームワークへの変更が必要だったり、ハードウェアベンダーに馴染みの薄いものであることが多いです。著者たちは、最近の産業主導のブロック浮動小数点（BFP）形式を使用し、その限界を押し広げるための分析を行いました。その結果、超低ビットBFP形式が外れ値の影響でLLMのパフォーマンスを悪化させることがわかりました。これに対処するために、新しい拡張形式MX+を提案し、BFPの外れ値の扱いを改善しました。MX+は、外れ値の精度を向上させるために、指数フィールドを拡張された仮数部として再利用し、4ビット形式と比較してモデル性能を大幅に向上させることに成功しました。