技术|华为诺亚Transformer后量化技术:效率百倍提升,视觉&NLP性能不减( 四 )


文章图片

随着迭代次数 t 进行线性缩减 。
实验验证
研究者首先在 MNLI 数据集上进行验证 。 由下表可以发现 , 对比逐层后量化训练(REM)算法 , 提出的逐模块量化误差重构 (MREM-S)大大提升了后量化的准确率;同时 , MREM-S 性能也可以接近量化感知训练(QAT)的方法 , 对于 BERT-base 和 BERT-large 在 W4A8 的设定下仅仅比 QAT 低了 1.1% 和 0.8% , 训练时间、显存开销和数据消耗也有了减小 。
当结合并行知识蒸馏时(MREM-P) , 后量化训练时间可以进一步缩短 4 倍 , 而且没有明显性能损失 。 例如 , MREM-P 仅耗时 6 分钟 , 占用 3.7GB 即可完成 BERT-base 上 2 比特权重的后量化训练 。
技术|华为诺亚Transformer后量化技术:效率百倍提升,视觉&NLP性能不减
文章图片

在 MNLI 上与 QAT 和 REM 的对比 。
研究者同时在 GLUE 上与现有的其他算法进行了对比 。 如下表所示 , 本文的方法 (MREM-S 和 MREM-P) 比后量化方法 GOBO【4】取得更好的效果 , 甚至在多个任务上接近量化感知训练方法 TernaryBERT 。
技术|华为诺亚Transformer后量化技术:效率百倍提升,视觉&NLP性能不减
文章图片

在 GLUE 公开数据集上与现有方法对比 。
参考文献:
【1】Di Wu, Qi Tang, Yongle Zhao, Ming Zhang, Ying Fu, and Debing Zhang. Easyquant: Posttraining
quantization via scale optimization. arXiv preprint arXiv:2006.16669, 2020.
【2】Peisong Wang, Qiang Chen, Xiangyu He, and Jian Cheng. Towards accurate post-training
network quantization via bit-split and stitching. In International Conference on Machine
Learning, pages 9847–9856. PMLR, 2020.
【3】I. Hubara, Y. Nahshan, Y. Hanani, R. Banner, and D. Soudry, “Improving post training neural quantization: Layer-wise calibration and integer programming,” in Proceedings of the International Conference on Machine Learning, 2021.
【4】A. H. Zadeh, I. Edo, O. M. Awad, and A. Moshovos, “Gobo: Quantizing attention-based nlp models for low latency and energy efficient inference,” Preprint arXiv:2005.03842, 2020.

推荐阅读