技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 三 ) 量化|模型|训练|性能|&|研究

文章图片

目标检测任务上的后训练量化结果。
论文 2
《Towards Efficient Post-training Quantization of Pre-trained Language Models》

文章图片

论文链接：https://arxiv.org/pdf/2109.15082.pdf
方法概述
下图为并行蒸馏下的模型后量化总体框架：

文章图片

模块化重构误差最小化
由于 Transformer-based 的预训练语言模型通常含有多个线性层耦合在一起，如果采用现有的逐层重构误差优化的方法【3】，作者发现很容易陷入局部最优解。为了考虑多个线性层内部的交互，如上图所示，研究者把预训练语言模型切分成多个模块，每个模块含有多个 Transformer 层。
因此该方法聚焦于逐个重构模块化的量化误差，即最小化全精度网络模块（教师模型）的输出与量化后模型模块（学生网络）的输出之间的平方损失：

文章图片

并行知识蒸馏训练
与逐个模块化重构量化误差不同，后量化还可以并行化训练。研究者把每个切分后的模块可以放在不同的 GPU 上，在不同模块之间设置输入缓冲池（input queue）

文章图片

来收集上一个模块的输出，同时为下一个模块的输入做准备。不同模块可以通过重置抽样从输入池获取输入样本来进行本地训练，无需等待其前继模块。因此，该设计可以使并行训练，并且实现接近理论加速比。
另外一个与逐模块训练不同的点在于，在并行知识蒸馏训练的初期，下一个模块获得的输入是从上一个未经过充分训练的模块中获得。因此，未充分训练的模块的输出可能依旧含有较大的量化误差，并且该误差会逐层传播，影响后续模块训练。
为了解决该问题，研究者受教师纠正（teacher forcing) 在训练循环网络中的启发，将第 n 个全精度模块的输出导入为第 (n+1) 个量化模块的输入，从而中断在后续模块的量化误差传播。然而，这种跨模块输入打破了与量化模型自身前继模块的联系，造成训练和推理前向不一致。为了实现平稳过渡，他们采用了如下的凸组合：

文章图片

并对连接系数

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 三 )

推荐阅读

经济舱各种价位的票价与座位默认前后安排是否有关联

禽类大肠杆菌病脐炎表现如何

百合莉莉怎样快速服盆

韭菜子粳米粥能滋阴补肾壮阳吗？

锻炼后肌肉酸痛应该怎么办？

素炒鳝鱼丝的做法（湖北菜）

迷你世界怎么做可以平移的地地形编辑怎么玩

条码标签打印软件怎么制作物料标签标签打印机软件

白芨种植技术方法白芨如何种植

纸黄金值得投资吗纸黄金

用渴望造关于迎接新学期的句子

英氏属于什么档次的？

有风险的成语

驾驶证扣了3分怎么处理

什么样的人生才是完美的？

烟雨江湖地黄在哪里烟雨江湖地黄位置

鸽子和斑鸠的区别是什么？

迪奥999的金属色哑光滋润，哪个好看

小学数学税率的意思税率是什么

《花名册》MP3歌词-后弦

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&amp;NLP性能不减( 三 )

推荐阅读

技术|华为诺亚Transformer后量化技术：效率百倍提升，视觉&NLP性能不减( 三 )