闪记|怎么把AI变成生产力？钉钉：这题我会( 二 )_视频|离线|文字|会议|自动|声纹

为什么一个产品的上线可以如此之快？傅徐军解释说，「闪记是钉钉和阿里巴巴达摩院合作开发的新产品，我们看到的多国语言翻译以及语音转文字能力都是来源于达摩院强大的技术支持。」
以闪记用到的语音识别为例。我们刚才提到，钉钉闪记的语音转文字结果是「立即」可出的，这区别于一些需要等待的语音转写产品。后者利用的往往是离线系统，在准确率方面比较有优势，但缺点也很明显，就是延迟较高。因此，近年来，延迟较低的在线系统受到越来越多的关注，但准确率始终不及离线系统。为了综合二者的优势，在降低延迟的同时提高准确率，阿里达摩院与钉钉技术团队采用了新一代流式和离线端到端一体化模型方案（UNIVERSAL ASR），它可以同时支持闪记的实时转写和录制音频转写，识别率媲美纯离线端到端模型，但延迟大大降低。

文章图片

UNIVERSAL ASR 架构概览。图源：https://arxiv.org/pdf/2010.14099.pdf
此外，闪记还首次上线了新一代端到端热词定制技术，在端到端模型中加入了为额外文本进行建模的 Contextual LSTM 模块，使得模型具备了对特定文本进行纠偏增强的能力。与传统热词技术相比，该技术的热词丢失率下降了 60% ，显著提升了定制场景的热词识别效果，且可设置热词数达到上千个。
再比如说声纹识别，技术人员针对会议场景的多角色分离任务，提出了多项核心算法创新技术。
首先，他们将只基于频域信息的传统声纹模型扩展到了频域和时空信息的三维说话人识别模型。通过有效建模空间信号信息 + 声纹神经网络，系统在多人会议中的性能大幅度提升，尤其是对说话人的起始时间的追踪、定位等能力。

文章图片

图源：https://arxiv.org/pdf/2107.09321.pdf
其次，针对长期困扰说话人识别研究者的短时文本无关任务，研究人员也做出了显著的优化。他们提出了一种基于 contrastive loss 的孪生网络结构 Phonetically-aware Coupled Network (PacNet) ，有效地同时建模声学信息和内容信息，可以有效减少短语音时文本内容对声纹识别带来的干扰，从而大幅度提升一场会议中短片段识别的准确率。
第三，针对强噪环境（如多人同时说话、电脑音频背景噪声等）下的说话人识别技术，技术人员提出了一种新的算法——CAM（针对声纹识别的 Context-Aware Masking）。该算法受到照相机聚焦技术的启发，可以在嘈杂的环境中「虚化」过滤掉背景噪声，突出需要识别的目标说话人的声音，从而在强噪环境下大幅度提升了识别的准确率。

闪记|怎么把AI变成生产力？钉钉：这题我会( 二 )

推荐阅读

2020理科生专属浪漫表白句子大全理科生的撩人情话

舟山螟蜅是哪儿的特产吗？舟山螟蜅介绍

山东三个核电站建在哪里

警民直通车上海【警察节】你心中的警察是什么样的？来听听他们的答案吧

砂糖桔和沙糖桔的区别

极品女人是看上去瘦瘦摸上去肉肉

加尔文生平

子宫破裂症状

便秘能吃附子吗

富有哲理的早安心语

万圣节的新娘可以单独看吗

韩式牛肉汤的做法

2018老人金婚送什么礼物好送父母的金婚礼物

外国人为什么不坐月子你了解吗

内心孤独空虚寂寞的说说

心理咨询师报考条件是什么

蓑毛的意思是什么

和平县的经济

关于婚姻最好的状态一段话婚姻最好的状态的句子

2022年10月有多少个工作日 2022年10月上班天数是几天