5月17日 , 搜狗CEO王小川在“搜狐科技5G & AI峰会”期间的主题演讲上正式发布了最新一代搜狗AI合成主播——全球首个手语AI合成主播“小聪” 。 “小聪”基于搜狗的AI分身技术 , 如果得到普遍的应用 , 将能够帮助听障人士更好融入社会 , 更好享受数字化生活 。
文章图片
“搜狗AI开放平台”援引世界卫生组织发布的数据表示 , 全球听力障碍人群高达4.66亿 , 在我国则有2700万人;因无法常态化、高质量地接受资讯信息 , 很多听障人士难以融入社会 , 最终成为被遗忘和边缘化群体 。
目前 , 在以电脑、手机为载体的各类新闻资讯、文化娱乐节目中引入手语的少之又少 , 普遍引入真人来进行手语解说从人力、财力、效率和精力多个角度来看都很难实现 。 通过技术手段实现听障人士真正可懂的手语播报能力 , 对于帮助听障者克服沟通障碍、更好融入社会非常有价值 。 “小聪”发布后 , 未来更多电视节目、网络综艺等即可低成本、普遍化地方便听障人士收看 。
据介绍 , “小聪”以打造听障人士真正可懂的通用手语播报为目标 , 立足于搜狗领先的数字人技术体系——搜狗分身 , 集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动等多项领先AI技术 , 实现了超写实3D数字人自然可懂的手语主播能力 , 使机器可以基于输入口语文本生成逼真度高、手语表达准确的3D数字人视频内容 , 从而具备“超写实的逼真数字人效果”、“高可懂度的手语表达能力”、“高接受度的手语展现效果”三大特点 。
在数字人效果方面 , “小聪”使用行业领先的3D重光照扫描还原、面部肌肉驱动、表情肢体手势捕捉技术 , 生产出高度还原真人发肤、形象逼真、动作自然生动的数字人模型 。 数字人写实度的大幅突破能够显著提升手语播报的真实感与亲切感 , 从而提高播报用户体验 。
在手语表达方面 , “小聪”基于《国家通用手语词典》 , 能够实现健听人语言与听障者手语语言的机器翻译能力 , 基于输入的健听人语言能够低延迟生成高准确率的手语语言表征 , 通过搜狗分身的多模态生成技术 , 实时预测生成对应的超写实3D数字人驱动参数 , 进而快速生成数字人手语播报视频 , 在测评中可懂度可以达到85%以上 , 能有效帮助听障者克服理解障碍 , 达成信息有效传递 。
【技术|搜狗发布手语AI合成主播“小聪” 助听障人士更好享受数字化生活】在手语展现方面 , “小聪”可以完整实现手控信息及非手控信息的表达 , 通过机器翻译生成手语表征信息 , 覆盖手部动作、面部表情、口动唇动等多个维度 , 并基于搜狗多模态端到端生成模型进行联合建模及预测 , 生成高准确率的动作、表情、唇动等序列 , 从而达成自然、地道、接受度更高的手语表达效果 。
在此过程中 , “小聪”还运用了业内领先的搜狗SLMT(Sign Langure Machine Translation)技术 , 在输出符合听障人士习惯自然手语的基础上 , 进一步提高了手语的可懂度、丰富和逼真了AI合成主播的表情与唇动能力 , 除了可以解决听障人士在日常生活、公共服务、特殊教育等多个场景下的信息不畅问题 , 还可以快速生成、批量复制 , 全年无休、随时随地提供服务 。
据了解 , 搜狗是AI合成主播的开创者 , 自2018年发布全球首个AI合成主播至今 , 已发布AI主播雅妮、新小萌、新小浩 , AI气象主播杨丹丹 , 俄语AI合成主播Liza等 。 “小聪”作为搜狗“AI合成主播团队”又一新成员 , 是将“以人为本 , 赋能于人”贯彻得更加彻底、更有温度的体现 , 充分彰显了搜狗的社会责任感和企业担当 。
推荐阅读
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- Samsung|三星预告1月11日发布Exynos 2200芯片组 RDNA 2 GPU加持
- 手机|一加10 Pro宣传视频曝光:将于1月11日14点发布
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- 技术|使用云原生应用和开源技术的创新攻略
- 语境|B站2021个人年度报告发布:你共计看了多少个视频
- 功能|Linux 微信官方版 2.1.1 正式发布
- 技术|聚光科技旗下临床质谱仪获批医疗器械注册证
- Apple|苹果高管解读AirPods 3代技术细节 暗示蓝牙带宽可能成为瓶颈
- 硬件|闪极140W多口充电器发布:首发399元 支持PD3.1