Microsoft [图]微软语言训练模型DeBERTa在SuperGlue阅读测试中超过人类基线
具有百万参数的训练网络近期获得了巨大进展 。微软近日更新了 DeBERTa (Decoding-enhanced BERT with disentangled attention)模型,训练了一个由 48 个 Transformer 层组成,拥有 15 亿个参数的模型 。
访问:
微软中国官方商城 - 首页
文章图片
性能的大幅提升使得单个 DeBERTa 模型在 SuperGLUE 语言处理和理解上的宏观平均得分首次超过了人类的表现(89.9 分 VS 89.8分),以相当大的优势(90.3分对89.8分)超过了人类基线 。
SuperGLUE 基准包括广泛的自然语言理解任务,包括问题回答、自然语言推理 。该模型也以 90.8 的宏观平均分位居 GLUE 基准排名的前列 。
文章图片
DeBERTa 使用三种新颖的技术改进了之前最先进的PLM(例如BERT、RoBERTa、UniLM):一个分离的注意力机制、一个增强的掩码解码器和一个用于微调的虚拟对抗训练方法 。
【Microsoft|[图]微软语言训练模型DeBERTa在SuperGlue阅读测试中超过人类基线】相比较由 110 亿个参数组成的谷歌 T5 模型,拥有 15 亿个参数的 DeBERTa 在训练和维护上更加节能,而且更容易压缩和部署到各种环境的应用中 。
文章图片
DeBERTa在SuperGLUE上超越人类的表现,标志着向通用AI迈进的重要里程碑 。尽管在SuperGLUE上取得了可喜的成绩,但该模型绝不是达到NLU的人类级智能 。
微软将把这项技术整合到微软图灵自然语言表示模型的下一个版本中,用于Bing、Office、Dynamics和Azure认知服务等地方,通过自然语言为涉及人机、人与人交互的各种场景提供动力(如聊天机器人、推荐、答题、搜索、个人助理、客服自动化、内容生成等) 。此外,微软还将向公众发布15亿参数的DeBERTa模型和源代码 。
推荐阅读
- Windows 有迹象表明微软将把下一代Windows命名为Windows 11
- 金星 谷歌与哈佛发布首个大规模人脑“地图”,包含1.3亿个突触
- 仓位 6.03尾盘操作确认通知!
- 柏拉图 吐槽大会需要许知远这样的知识分子吗?
- 火星车 祝融号一张高清图要传半个月,通信能力却是世界领先,这是为何?
- IT 广汽埃安发布AION S Plus官图 计划年内上市
- 错位图 明星“错位图”有多搞笑谢可寅蔡徐坤接吻没啥,看到何老师笑出腹肌
- 图片 色盲测试:第一张是飞机,最后一张的图案,“马虎”的人认不出!
- 江西 陕西一“森林景区”走红,森林覆盖率高达96%,景区之内有大熊猫
- 发射 我国成功发射风云四号02星
