浏览器|百亿参数、中文NLU能力首次超越人类,QQ浏览器大模型神舟登顶CLUE( 三 )


  • 行业高效解决方案 , 比如教育行业的题库理解、车载对话场景等;
  • 辅助标注 , 在审核、客服、医疗问诊问答等领域 , 通过语义和知识减少不必要的人工交互和标注;
  • 提升多模态场景的语义 , 优化多模态对齐效果 。
「神舟」预训练数据
「神舟」借鉴了摩天模型的大量基础训练数据 , 包括企鹅号、小说、各类百科、新闻、社区问答等内容 。 并在此基础上额外引入了大量互联网网页数据 , 经过精准清洗优化 , 在数据量保障的前提下同时避免低质数据导致的模型漂移 。
自蒸馏预训练算法
知识蒸馏(Knowledge Distillation)指的是将训练好的教师模型(Teacher Model)的知识通过蒸馏的方式迁移到学生模型(Student Model) , 以提升学生模型的效果 , 往往学生模型参数量较小 。 而与知识蒸馏不同的是 , 自蒸馏(Self-Distillation)则指的是模型参数量不变 , 通过自己蒸馏到自己来不断提升自己的效果 。
目前在 CV 和 NLP 领域 , 自蒸馏技术已经得到广泛的应用 , 并且也验证了其效果的普适性 。 而在预训练中 , 标准的自蒸馏技术并没有很好地得到广泛的应用 , 原因主要在于预训练过程中非常消耗时间和资源 , 而标准的自蒸馏技术需要经历几次的模型训练、预测和蒸馏过程才能有比较好的效果提升 , 这非常消耗时间 , 显然不太适合预训练 。
受 ALBEF 的动量蒸馏技术以及 r-drop(ICLR2021) 技术启发 , QQ 浏览器实验室团队探索了 layer-wise 和 instance-wise 自蒸馏在预训练模型上的应用 , 期望在尽量减少时间和资源消耗的情况下 , 在训练过程中在线进行自蒸馏 , 达到快速提升模型效果的目的 。 实验效果证明 , 两种方式对下游任务都有普适性的提升 , 其中 instance-wise 自蒸馏效果表现更优 , 但是对显存的消耗也会较高 。
其中下图左为 layer-wise 自蒸馏技术 , 在训练过程中使用每一层的输出蒸馏最后模型的输出来不断提升模型性能;下图右则为 instance-wise 自蒸馏技术 , 利用 dropout 的随机性 , 对于同样的输入可以产出两个不同输出 , 在线自己蒸馏自己 , 快速提升效果 。

浏览器|百亿参数、中文NLU能力首次超越人类,QQ浏览器大模型神舟登顶CLUE
文章图片

引入知识图谱增强预训练增强知识理解能力
预训练模型对于真实世界的知识理解 , 需要更多的知识『投喂』 , 业界对于预训练引入知识也是多有探索 。 「神舟」同样在知识增强方面做了进一步深度优化:基于搜索构建的知识图谱数据及百科语料 , 团队尝试了 3 种知识性任务——远监督关系分类、同类实体替换预测和三元组 - 文本 Mask 预测 。

推荐阅读