IPTQ-ViT: 整数のみを用いるビジョントランスフォーマーのための非線形関数のポストトレーニング量子化

IPTQ-ViT: Post-Training Quantization of Non-linear Functions for Integer-only Vision Transformers

本論文では、整数のみを使用するビジョントランスフォーマーのために、再学習なしで完全な整数のみの推論を実現する新しいポストトレーニング量子化法であるIPTQ-ViTを紹介します。従来の量子化を意識したトレーニング法は、コストの高い再学習が必要であり、部分的な非線形関数の量子化や活性化分布の調整が求められましたが、完全な整数のみの推論には至っていませんでした。IPTQ-ViTでは、視覚データに最適化された多項式ベースのGELU関数と、精度向上を目的としたビットシフトベースのSoftmaxを提案します。さらに、量子化感度、攪乱、計算コストを統合したメトリックを用いて、各活性化層における最適な近似関数を選定します。この方法は、画像分類において6.44%（平均1.78%）のトップ1精度向上を達成し、オブジェクト検出において1.0 mAPを実現しました。また、W8A8およびW4A8においても部分的な浮動小数点PTQ法を上回る結果を示しています。