定制|思必驰高自然度可定制的语音合成（TTS）技术，如何练成的？_语音|声音|服务|文本|自然|语音

语音合成（Text to Speech ， TTS）又称文本语音转换技术，顾名思义，是把文本信息转化成语音信息。它是对话式人工智能的最后一环，也是关键一环，它的效果直接影响着人机语音交互的体验。
思必驰作为国内领先的对话式人工智能平台公司，它的语音合成技术表现究竟如何？
语音合成的“前世今生” 人的语音，本质上是发音器官震动，产生声波传出。模仿人声，最古老的方法是使用乐器。到19世纪，就可以用机械方法产生语音了。那时，科学家们会制作出一些精巧的气囊和风箱去搭建发声系统，合成出一些元音和单音。

文章图片
人类发音示意图
进入电子时代的1939年，贝尔实验室H·杜德利制作出第一台电子合成器，这是用共振峰原理制作的语音合成器，该技术使用固定频率，以电子复制我们改变口型时所发出的元音声，也这正是英国剑桥大学著名物理学家斯蒂芬·霍金教授所使用的声音合成器。
上世纪90年代，随着计算和存储能力大幅度提升，基于大语料库的单元挑选与波形拼接合成方法出现，可以合成出高质量的自然人语音。

文章图片
语音合成技术演变
进入21世纪，随着深度学习技术的兴起和快速发展，以语音合成为代表的语音处理技术得到了极大的飞跃。神经网络语音合成在近几年来取得了显著突破，合成?的?质和?然度越来越? ，运?速度也越来越快。思必驰目前所使用的，也正是这种方法。
思必驰TTS ，魅力何在？早在2007年于英国剑桥大学创立时，思必驰关于语音合成技术研究就已开启，该项工作由思必驰联合创始人兼首席科学家、上海交通大学教授俞凯领头。
语音合成系统主要分为文本处理、声学模型、声码器三个部分。文本处理负责对文本进行转写和phoneme序列转换；声学模型使用深度神经网络，可以在文本特征与声学特征之间学习到更复杂的非线性关系；声码器负责将声学模型输出的声学特征，通过卷积运算，转换成音频。
经过10多年的研究积累，思必驰在建模方法上，涵盖了从传统的统计参数模型到最新的基于神经网络的方法；对声码器的研究，涵盖了从传统的基于信号处理的方法到最新的基于神经网络的方法。
语音合成的质量与效果，既有赖于语音厂商的算法模型，还取决于音频语料的质量，即数据质量。思必驰有着丰富的声优资源以及声优挑选的经验，在苏州建设有专业录?棚并与国内多个城市的录?棚有着长久合作关系。与此同时，思必驰数据团队也对数据标注有着严格的质量把控。

文章图片
位于思必驰苏州总部的专业录音棚
经过多年的技术积累，思必驰已逐步形成了?套成熟的技术?案，业务涵盖了?数据语?定制、?数据快速定制、声?克隆、歌声合成、?语种合成、??合成、情感合成等，可选公有云、私有云以及离线三种部署?式，经典??可在思必驰官?实时体验。
2017年、2020年，思必驰还先后参与国家标准《中文语音合成互联网服务接口规范》与行业标准《中文语音合成服务系统评估规范》的制定，并成为全国首批通过评估测评的公司之一，获得“TTS-4S（Standard Similarity Scene System）服务证书” 。该测评从合成质量、定制能力、场景表现力和系统安全可靠等维度，全面评估合成水平和服务能力。

文章图片
2019年11月，思必驰首批通过“中文语音合成水平测试”
未来世界，百“声”争鸣为能快速提供语音合成定制服务，思必驰全程提供音色选择、录音指导、音频处理、模型训练、服务部署等专业服务，赋予产品开口讲话的能? 。
【定制|思必驰高自然度可定制的语音合成（TTS）技术，如何练成的？】截至目前，思必驰语音合成已建设的??库内包含音色接近200个，涵盖多种??、多种风格，以及各个年龄层次。
思必驰语音合成服务，也已在车载、?电、机器?、智能客服等诸多领域成功落地，为众多终端产品赋予声的魅力，使得万物皆可沟通，并逐渐走入人们的工作与生活。

文章图片

当你在家里“躺平” ，来自如影智能的语音管家“Edison” ，用他温暖、绅士的声音（文章开头的音频A），为你带来踏实与慰藉；当你在爱车中驰骋，车萝卜的语音助理“萝卜”清脆、简明的声音，如同车水马龙路途中的一股清流；当你接起顺丰95338服务热线的外呼电话，智能客服“丰小蜜”亲切又不失严谨的声音，配合高效的工作能力，带给你最省心省力的服务体验……
镜头切换到泛娱乐领域，思必驰团队打造的“小驰机器人”在央视《机智过人》中，现场用撒贝宁的声音生成了一曲《好久不见》。在《经典咏流传》中，思必驰携手栏目组共同推出 “读诗成曲”线上互动小工具，提供实时读诗成曲的能? 。用户仅需读几句简单的诗词，便可快速生成有腔有韵的歌声，互动总量超过821万人次。

文章图片
思必驰联合创始?兼?席科学家俞凯参与节目录制
在个性化定制上，思必驰不仅可以提供普通话定制、歌声定制，还可以通过迁移学习方法，提供更高难度的方言、小语种TTS定制，如粤语、上海语、四川话、?东话、东北话、德语、法语等。
而思必驰的情感合成技术，则赋予美妙音色丰沛的情绪，让声音更具表现力与感染力。
此外，思必驰声音复刻技术也已在斑马智能、爱驰汽车、岚图汽车、仙豆智能等车联网客户以及IoT领域落地，仅需录音20句话约400汉字， 10分钟之内便可以完成模型生产， MOS 合成音/录音达到90% ，相似度合成音/录音达到80% 。
人类的声音，是人类语言的物质外壳，却承载着重要的信息和真挚的情感，拥有着无穷的魅力。人工智能突飞猛进地发展正不断催化人机交互方式的巨变， “万物可沟通、万事可打理”的语音互联未来世界，正加速到来……

定制|思必驰高自然度可定制的语音合成（TTS）技术，如何练成的？

推荐阅读

华为手表二维码在哪

有谁知道兰花的别称是什么

鲍汁杏鲍菇的做法

解酒的产品有哪些

华为mate30pro多少钱你心动了吗

胡萝卜丝饼的做法（电饼铛食谱）

色彩搭配技巧让大家在穿搭中不易出错

手游炫舞表白句子

又一张“国家名片”面世，技术超过美国至少10倍，全球仅有我国有

文化墙和文化长廊的区别

如何预防草莓炭疽病?

[狮子]有一种女人，你坚决say no

烫蓬松的发型叫什么烫

测胎心看乳头 12招教你看穿胎中宝宝性别

平安果什么时候送？

敷完面膜要不要洗掉

肝胆湿热饮食禁忌有哪些

高速公路服务区标志是什么样的

如何消除自卑心理教你走出负面情绪

国庆节发给客户的短信祝福语大全

定制|思必驰高自然度可定制的语音合成（TTS）技术，如何练成的 ？

推荐阅读

定制|思必驰高自然度可定制的语音合成（TTS）技术，如何练成的？