D4C: データフリー量子化によるコントラスト言語-画像事前学習モデルの最適化

本記事では、Data-Free Quantization (DFQ)を用いたコントラスト言語-画像事前学習モデル（CLIP）に対するデータフリーな量子化手法D4Cを提案しています。DFQは、実データに依存せずモデルの圧縮を実現する方法であり、特にプライバシーに敏感なシナリオでの応用が期待されています。従来のDFQ技術をCLIPに適用すると、意味的内容の不足や画像合成サンプルのバラエティ不足が原因で性能が大幅に低下することが判明しました。D4Cは、テキストプロンプトを用いたセマンティックインジェクション、自然画像の構成を再現する構造的コントラスト生成、およびサンプルの多様性を向上させるための摂動認識強化の三つの重要なコンポーネントを組み合わせることで、意味的に情報豊かで構造的に多様な画像を合成することに成功しています。実験により、D4Cが様々なビット幅やモデルでの性能を大きく改善することが示されました。特に、CLIP ResNet-50およびViT-B/32でのCIFAR-10やCIFAR-100、ImageNet-1Kにおいて、トップ1精度の顕著な向上が確認されています。