模型|为吸引更多AI开发者,浪潮信息发布新开源人工智能巨量模型


模型|为吸引更多AI开发者,浪潮信息发布新开源人工智能巨量模型
文章图片

【模型|为吸引更多AI开发者,浪潮信息发布新开源人工智能巨量模型】图片来源:Pexels

采访人员 | 彭新
算法、数据、算力后 , 中国人工智能开发的又一环节“AI模型”得到市场关注 。
10月底 , 服务器公司浪潮信息发布了开源人工智能巨量模型“源1.0” , 主要针对自然语言处理领域 , 即语言模型 , 意在吸引更多开发者进行人工智能自然语言应用探索 。
所谓语言模型 , 就是让机器理解并预测人类语言的技术 。 源、GPT-3被通称为 “大型语言模型” , 指的是一种利用深度学习的算法 , 通过数千本书和互联网的大量文本进行训练 , 将单词和短语串在一起 。
2020年 , 美国人工智能非营利组织OpenAI曾发布GPT-3模型 , 参数量首次突破千亿大关 , 达到1750亿 , 采用570GB训练数据集 , 可以答题、翻译、写文章等 , 吸引了全球AI行业的目光 。 《麻省理工科技评论》就评价GPT-3:“人们认为可以写出任何东西:同人小说、哲学辩论、甚至代码 。 人们甚至就GPT-3是否是第一个通用人工智能展开争论 。 ”
自那以后 , 国内就在积极推进这类大模型在中文世界的落地 。 阿里巴巴曾联合清华大学 , 在今年3月发布了参数规模达1000亿的中文预训练模型M6 , 可应用于电商产品描述生成、问答、中国诗歌生成等任务 。 今年4月 , 华为发布华为云盘古大模型 , 开发者只需少量行业数据 , 就可以快速开发出精准度更高、泛化能力更强的AI模型 。
本次浪潮发布的源1.0在规格上达到了新高 。 浪潮表示 , 源1.0模型参数规模为2457亿 , 训练采用的中文数据集达5000GB 。 相比GPT-3模型 , 源1.0的参数规模领先40% , 训练数据集规模领先近10倍 。
根据浪潮提供的测试数据 , 将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨 , 测试结果表明 , 人群能够准确分辨人与“源1.0”作品差别的成功率已低于50% 。
在零样本学习榜单中 , “源1.0”超越业界最佳成绩18.3% , 在文献分类、新闻分类 , 商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军 。 在成语阅读理解填空项目中 , 源1.0的表现已超越人类得分 。
企业竞相发布 “大型语言模型” , 原因在于AI技术普及的瓶颈 。 在开发效率上 , AI应用开发太慢 , 阻碍了技术和需求的结合 , 而大模型被视为可行方向 。 “目前来看 , 通过大规模数据训练超大参数量的巨量模型 , 被认为是非常有希望实现通用人工智能的一个重要方向 。 ”浪潮首席科学家王恩东认为 。

推荐阅读