技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 四 ) 量化|模型|训练|性能|&|研究

文章图片

随着迭代次数 t 进行线性缩减。
实验验证
研究者首先在 MNLI 数据集上进行验证。由下表可以发现，对比逐层后量化训练（REM）算法，提出的逐模块量化误差重构 (MREM-S)大大提升了后量化的准确率；同时， MREM-S 性能也可以接近量化感知训练（QAT）的方法，对于 BERT-base 和 BERT-large 在 W4A8 的设定下仅仅比 QAT 低了 1.1% 和 0.8% ，训练时间、显存开销和数据消耗也有了减小。
当结合并行知识蒸馏时（MREM-P），后量化训练时间可以进一步缩短 4 倍，而且没有明显性能损失。例如， MREM-P 仅耗时 6 分钟，占用 3.7GB 即可完成 BERT-base 上 2 比特权重的后量化训练。

文章图片

在 MNLI 上与 QAT 和 REM 的对比。
研究者同时在 GLUE 上与现有的其他算法进行了对比。如下表所示，本文的方法 (MREM-S 和 MREM-P) 比后量化方法 GOBO【4】取得更好的效果，甚至在多个任务上接近量化感知训练方法 TernaryBERT 。

文章图片

在 GLUE 公开数据集上与现有方法对比。
参考文献：
【1】Di Wu, Qi Tang, Yongle Zhao, Ming Zhang, Ying Fu, and Debing Zhang. Easyquant: Posttraining
quantization via scale optimization. arXiv preprint arXiv:2006.16669, 2020.
【2】Peisong Wang, Qiang Chen, Xiangyu He, and Jian Cheng. Towards accurate post-training
network quantization via bit-split and stitching. In International Conference on Machine
Learning, pages 9847–9856. PMLR, 2020.
【3】I. Hubara, Y. Nahshan, Y. Hanani, R. Banner, and D. Soudry, “Improving post training neural quantization: Layer-wise calibration and integer programming,” in Proceedings of the International Conference on Machine Learning, 2021.
【4】A. H. Zadeh, I. Edo, O. M. Awad, and A. Moshovos, “Gobo: Quantizing attention-based nlp models for low latency and energy efficient inference,” Preprint arXiv:2005.03842, 2020.

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 四 )

推荐阅读

高铁带液体有限制吗

异地买房需要注意什么

如何才能真正成就更好的自己？

韭菜怎么存放如何保存韭菜

运动能力差的人应该怎样开始力量训练？

《格萨尔王》史诗部分就有150多万行世界最长的史诗

橡胶木是什么材质

牛年出生的孩子起什么名字好属牛的女宝宝名字大全

钓鱼的酒米怎么泡

抖音上两岁生日句子

防水涂料的种类及优缺点

使用衣物消毒柜有哪些优点

清明节简短的问候句子

啤酒加盐能让衣服恢复颜色吗

boxer是什么衣服

狗狗币值得投资吗狗狗币能不能涨到一美元2021

长毛的蘑菇洗干净还能吃吗

心情不好的句子说说心情短语心情低落说说发朋友圈

?冬病夏治的中医理论依据

刮痧可以治疗感冒吗？感冒刮痧刮哪里？

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&amp;NLP性能不减( 四 )

推荐阅读

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 四 )