团队|人工智能从“大炼模型”到“炼大模型”

人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代 , 以及接下来可能将进入的基于模型的AI时代 , 这相当于把数据提升为超大规模预训练模型 。 未来 , 研究人员可以直接在云模型上进行微调 , 很多公司甚至不用维护自己的算法研发团队 , 只需要应用工程师即可 。
写小说、和人聊天、设计网页、编写吉他曲谱……号称迄今为止最“全能”的AI模型GPT-3 , 当然远远不止会这些 。 作为2020年人工智能领域最惊艳的模型之一 , GPT-3无疑把超大规模预训练模型的热度推向了新高 。
3月下旬 , 我国首个超大规模人工智能模型“悟道1.0”发布 , 该模型由智源学术副院长、清华大学教授唐杰领衔 , 带领来自清华大学、北京大学、中国人民大学、中国科学院等单位的100余位AI科学家组成联合攻关团队 , 取得了多项国际领先的AI技术突破 , 形成了超大规模智能模型训练技术体系 , 训练出包括中文、多模态、认知和蛋白质预测在内的系列超大模型 。
已启动4个大模型开发
据悉 , “悟道1.0”先期启动了4个大模型研发项目:以中文为核心的超大规模预训练语言模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列预测预训练模型文溯 , 以及面向认知的超大规模新型预训练模型文汇 。
唐杰介绍 , 文源拥有26亿参数 , 文澜则为10亿 , 文溯是2.8亿 , 文汇则达到了百亿以上 。 虽然相对于GPT-3的1750亿参数而言还有差距 , 但“接下来会有更大的模型” 。
目前 , 文源模型参数量达26亿 , 具有识记、理解、检索、数值计算、多语言等多种能力 , 并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务 , 在中文生成模型中达到了领先的效果 。
“目前这些模型既有一些交集 , 但也存在明显差异 。 文源的重点是在中文和跨语言 , 未来也会加入知识;文澜的重点主要是图文;文汇则更多地瞄向认知 。 ”唐杰表示 , 认知是人工智能技术发展的趋势和目标 , 关系到机器是否能像人一样思考这个终极问题 。
“下一代人工智能技术的发展方向一定是认知 。 ”据唐杰介绍 , 在作诗任务中 , 目前文汇已经通过了图灵测试 。 从算法的角度上来看 , 文汇能通过图灵测试的关键在于“生成” , 而不仅仅限于“匹配” , 这种生成能力是多样的 。
被问及为何会选择这4个预训练模型项目时 , 唐杰说 , 这是综合考虑了国内外同行的相关工作、国内人工智能发展的现状、团队人员构成、北京区域优势等作出的决定 。 “当时GPT-3刚发布不久 , 悟道团队认为首先要对标其卓越的少样本学习能力 , 同时还要做出差异化 , 做短、中、长3个阶段的布局 。 于是 , 中文版GPT-3即清源CPM(文源的前身)应运而生 , 这是短期布局 。 之后 , 文源要向中英文模型乃至多语言模型发展 , 这是中期布局 。 最后走向认知智能 , 这是长期布局 。 ”唐杰说 , 与此同时 , 国内顶尖的企业人才、学术人才和自然科学人才所组成的团队给了项目巨大的想象空间 。
大模型有大智慧
自2018年谷歌发布BERT以来 , 预训练模型逐渐成为自然语言处理(NLP)领域的主流 。
2020年5月 , OpenAI发布了拥有1750亿参数量的预训练模型GPT-3 。 作为一个语言生成模型 , GPT-3不仅能够生成流畅自然的文本 , 还能完成问答、翻译、创作小说等一系列NLP任务 , 甚至可以进行简单的算术运算 , 并且其性能在很多任务上都超越相关领域的专有模型 。
以GPT-3为代表的超大规模预训练模型 , 不仅以绝对的数据和算力优势取代了一些小的算法模型 , 更重要的是 , 它展示了一条通向通用人工智能的可能路径 。 在此背景下 , 建设国内的超大规模预训练模型和生态势在必行 。
在唐杰看来 , 为了提高机器学习算法的效率 , 改变传统的行业布局 , 过去几年 , 大家拼命做模型 , 导致模型越做越多 。 然而 , 一般的模型训练效果并不如人意 , 花了大量财力精力却达不到理想的训练效果 , “为了优化效果、提高精度 , 模型越来越复杂 , 数据越来越大 , 很多公司的能力不足以应对这种状况 , 效率越来越低 。 ”唐杰举了个例子 , 小炼钢厂往往条件简陋 , 能炼钢 , 但质量不好 。 大炼钢厂买得起设备、花得起电费 , 炼出的钢质量就好 , 大模型就是大炼钢厂 , 它可以获得大量数据 , 并把数据清洗干净 , 提升算力 , 满足要求 。
与此同时 , “小模型可能只需要几个老师和学生就能完成算法的设计 , 但是大模型的每一层都要找专人来做 , 这样可以把模型的设计和训练精细化 , 模型设计也从单打独斗变成了众人拾柴 。 ”唐杰说 。
小团队将成最大受益者
据唐杰透露 , 团队目前正在跟北京冬奥会合作 , 开发可通过文本自动转成手语的模型 , “医疗方面我们的主要方向是癌症早筛 , 如上传乳腺癌图像 , 找到乳腺癌相关预测亚类 , 通过影像识别宫颈癌亚类等 。 ”
而谈到“悟道1.0”的发展 , 唐杰坦言 , 目前还存在需要持续攻关的问题 。 一是模型能否持续学习的问题 , 即能否不断地从新样本中学习新的知识 , 并能保存大部分以前已经学习到的知识 。 就目前来看模型还需要调整 , 其效果还有待加强;二是面对一些复杂问题 , 目前模型还无法回答;三是万亿级模型的实用性问题 , 即如何在保证精度的同时压缩模型 , 从而能让用户低成本地使用 。
“这是一个全新的产业模式 。 原来大家数据上云、算力上云 , 现在模型上云 。 ”唐杰说 。
他认为 , 人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代 , 以及接下来可能将进入的基于模型的AI时代 , 这相当于把数据提升为超大规模预训练模型 。 未来 , 研究人员可以直接在云模型上进行微调 , 很多公司甚至不用维护自己的算法研发团队 , 只需要应用工程师即可 。
唐杰表示 , 随着超大规模预训练模型系统的开放 , 小团队是最大的受益者 , 大家不必从零开始 , 预训练基线智能水平大幅提升 , 平台多样化、规模化 , 大家在云上可以找到自己所需的模型 , 剩下的就是对行业、对场景的理解 。 这将给AI应用创新带来全新的局面 。
【团队|人工智能从“大炼模型”到“炼大模型”】唐杰透露 , “悟道1.0”只是一个阶段性的成果 , 今年6月将会有一个规模更大、水平更高的智慧模型发布 。 届时 , 模型规模会有实质性的进展:模型会在更多任务上突破图灵测试 , 其应用平台的效果也会更加让人期待 。

    推荐阅读