团队|对话清华“华智冰”研发团队,揭秘国内首个虚拟学生幕后故事

“我是怎么诞生的?我能理解我自己吗?”画面中 , 一个扎马尾辫、背红色双肩包的女生漫步在清华校园里 。 她叫“华智冰” , 是我国首个原创虚拟学生 。

团队|对话清华“华智冰”研发团队,揭秘国内首个虚拟学生幕后故事
文章图片

“华智冰”成果发布会上公布的“华智冰”面貌 。 清华大学供图
今年6月 , 这名特殊的学生入学清华大学计算机系 , “师从”清华大学计算机系长聘教授、系副主任唐杰 , 自此开启它的学习和研究生涯 。
【团队|对话清华“华智冰”研发团队,揭秘国内首个虚拟学生幕后故事】有容貌、有声音 , 会作诗、会画画、会跳舞……“华智冰”形象一经公布 , 引起大量关注 。 她由清华大学计算机系、北京智源研究院、智谱AI和小冰公司联合培养 , 也因此得名 。 据悉 , 华智冰还将具有一定的推理和情感交互的能力;她还拥有持续学习能力 , 能够逐渐“长大” , 变得越来越聪明 。 这使她大大不同于一般的虚拟人物 。

团队|对话清华“华智冰”研发团队,揭秘国内首个虚拟学生幕后故事
文章图片

清华大学发布的“华智冰”宣传片中的镜头 。 清华大学供图
其实 , “华智冰”背后是一个“智能数字脑” , 她的脸部、声音都是通过人工智能模型生成 。 “我们教给华智冰 , 说话的时候不光要有口型和表情 , 还要有肢体动作;不光如此 , 我们还希望她能够跳舞 。 ”清华大学计算机系长聘副教授、系党委副书记贾珈在研发团队中负责“华智冰”的外在形象及声音、表情、口型、肢体动作的生成 。 “希望下一次可以让大家看到‘华智冰’跳舞能够达到清华舞蹈队的水平 。 ”
作为一个虚拟人 , “华智冰”的言语能力也极为重要 。 清华大学计算机系长聘副教授黄民烈指出 , 今后还要解决更复杂的任务 , 比如让“华智冰”跟同学聊天 , 帮助处理部分心理辅导的任务 。 这就需要借鉴心理学理论 , 设定特定的情绪支持对话框架 。
“华智冰现在的主要身份是‘学生’ , 不断‘学习’是她当前最重要的工作 。 ”唐杰说 , “我们期待 , 未来的‘华智冰’能够在多项认知智能上超过人类 。 或许到那时 , 她就可以毕业了 。 ”
但“华智冰”的“人设”是如何定位的?她会有情感吗?她什么时候毕业、毕业之后将会做什么?带着这些疑问 , 新京报采访人员和“华智冰”的导师、清华大学教授唐杰及研发团队其他成员一起聊了聊 。
制定三年学习计划 , 首年“遍读天下书”
新京报:“华智冰”是首个中国原创虚拟学生 , “人设”为什么定位为一个本科生?
唐杰: 现在人工智能虽然已经取得很大成就 , 但距离认知AI还很远 , 从这个层面 , 把“华智冰”定位为小学生都可以 。 我们把她定位为一个非常聪明、但还没那么聪明、成长速度很快的角色 。 她的优势之一是可以一天24小时不断学习 , 所以成长速度非常快 。
新京报: “华智冰”到目前拥有哪些技能?
唐杰:“华智冰”可以做自动问答 , 你给一个问题 , 她能够自动生成答案 。 另外 , 给定一个文字 , 她可以围绕其作诗 , 也可以画图 。 她还可以写短文、做音乐等 。

团队|对话清华“华智冰”研发团队,揭秘国内首个虚拟学生幕后故事
文章图片

“华智冰”创作的诗画作品 。 清华大学供图
新京报: “华智冰”的能力相当于人类多少岁的水平?
唐杰: 从记忆方面讲 , 她的数据规模已经达到几个T , 甚至包罗了网上能找到的所有的网页数据、图片数据 , 所以“华智冰”记忆能力其实已经超过了人类;如果从推理、逻辑、计算能力上讲 , 可能她的能力只有几岁 。 所以如果和人相比 , 她的能力是参差不齐的 。
新京报:“华智冰”还具有一定的情感交互的能力 。 机器人可能有情感吗?怎么体现?
贾珈: 情感计算是一个非常重要的研究方向 。 根据研究 , 情感是可计算、可量化的 。 我们希望“华智冰”是一个情商非常高的数字人 , 希望她能在语言生成过程中做合适的情感表达 。 我们教给“华智冰”的原始数据是2250万G , 在国内规模比较大 , 覆盖中性情感和六类人类情感基本语料库 。
新京报: “华智冰”接下来在清华大学计算机系有什么样的“学习”计划?
唐杰: 当下我们制定了短期的三年计划:第一年 , 我们希望她能泛读天下书 , 说白了就是要读全世界的数据;第二年做“精读” , 理解能够更深刻 。 第三年 , 希望她可以有创造能力 , 创造出全新类型的东西 。
新京报:“华智冰”是否会有一个整体形象?
唐杰: 我们有计划做2D和3D建模 。 至于很多人关注的是否要把她做成实体机器人 , 这是个有争议的问题 。 对于实体到底能提供多少智力上的改变或增量 , 我们还在探讨 , 要不要去做这件事还没有得出100%的结论 。
大批团队成员凭兴趣“自带干粮”加入
新京报:“华智冰”的诞生用了多久?过程中最难的是什么?
唐杰: 清华的团队很早就在做相关积累 , 我们实验室大概做了25年的知识工程相关研究 。 “华智冰”项目本身做了大概一年多 。
过程中难点还挺多的 。 去年大家看到美国AI实验室Open AI发布了大规模预训练模型GPT-3 , 当时我们也想做一个大模型 , 但我们面临的问题是:没数据、没算力、没有人 。
后来 , 我们跟很多数据公司合作 , 通过共享方式获得新数据 。 为解决人力问题 , 我们找了很多老师 , 问“你有没有兴趣来免费做这个事儿” , 后来很多老师自愿、自带干粮参与进来 , 全凭情怀和兴趣 , 这些老师有校内的、也有校外的 。 没有算力怎么办?我的学生有好几个团队 , 在一个CPU的基础上重新开发底层 , 他们那段时间“轮流熬夜” , 慢慢才把程序写出来 。 “华智冰”也得到了学校、系里各位老师同学的大力支持 。
新京报: 研发过程是否有清华大学学生参与?
唐杰: 有非常多的学生参与 , 我们整个团队大概有一百多人 , 其中大概有七八十个学生 , 当然也有很多年轻老师、博士生参与到这个团队中 。 这次用到的超大规模的数据、超大规模的算力、超大规模的智力集群 , 对团队所有人包括我自己都是很好的成长和锻炼 。
新京报:“华智冰”未来将应用于哪些场景?
唐杰:“华智冰”已经开始探索多种相关应用 , 比如在招生等方面的应用 。 未来 , 在养老、人机陪伴方面 , 应用可能最广泛 。 还可以把人工智能技术应用到传统行业中 , 比如物流、金融等 。 可能未来某一天 , 你的理财顾问就是一个数字人 , 用人机交互的方式做推荐 , 推荐精度比人还要高 。
新京报采访人员 冯琪 校对 柳宝庆

    推荐阅读