文章图片
坊间总会流传些他们的段子
格子衫、双肩包、沉默且不苟言笑
当然 , 还有岌岌可危的发量(没有 , 不是我说的)
那只能说 , 这些都是表象
堪称新时代的中流砥柱
每天家住回龙观 , 征战新中关
浑身散发出高级又内敛的气质
究竟是什么塑造的?
(一切为了工作 挣钱)
小驰捕捉到一位思必驰程序员小哥哥
今天去看看
他日常的那些“封神级”操作!
文章图片
Q:一句话形容你正在做的事情?
A:人类之光…在宇宙中心呼唤AI…反正很Cool就对了
Q:最近有什么新成果吗?
A:你光顾着关注我们发际线 , 不关注我们的精神成果 , 扣鸡腿… 最近发布了DUI标注训练一体化平台
Q:如果我中英文掺着说 , 语音识别TA能听懂吗?
A:不同场景、环境下的语音识别效果多少会受噪声、专业术语、多语言混合影响 。 契合场景来提升语音识别率 , 自然就能准确许多 。
Q:让场景识别率能持续提升 , 你们有什么“神技”傍身?
A:我们融进了最新的「端到端识别技术」来提升识别准确率 , 通过大规模预训练模型技术提升语音识别后处理效果 。 结合「增量学习」、「主动学习」、「联邦学习」和「小样本迁移」等技术手段 , 提升用户体验 。 同时开放「端点检测模型自训练」、「标点断句自训练」等功能 , 让用户自己拥有自主权 , 来解决实际问题 。
Q:呃…
A:好 , 说点你能听懂的
高能 , 划重点!
文章图片
第一 , 关于端到端识别技术 。
过往严格意义上的端到端识别技术 , 如基于LAS的端到端系统 , 虽然可以较明显地提升通用语音识别的准确率 , 但受限于计算复杂、自定制语言模型技术不成熟等原因 , 不能大规模的商用 。 思必驰去年推出新一代端到端语音识别建模技术 , 在实现通用识别准确率相对提升10%-15% 的同时 , 也提升了模型计算速度 , 更可以满足快速有效的语言模型自定制 。
文章图片
第二 , 关于大规模预训练模型技术 。
要知道 , 语音识别系统中除了核心的语音识别(ASR)模型部分 , 语音识别的后处理模型也是十分重要的 , 它直接影响到识别结果的可读性 。 思必驰语音识别系统支持「智能纠错」、「智能标点断句」、「智能口语顺滑」、「智能语义分段」、「智能语义纠错」等语音识别后处理技术 , 能进一步提升语音识别的效果与可懂度 。 模型采用大规模预训练模型 , 结合多任务学习(Multi-Task Learning)和知识蒸馏(Knowledge Distillation)方法 。 在降低70%以上模型规模的条件下 , 提升了模型效果 , 运算效率大幅提升同时降低了内存开销 。
例如在智能会议场景中 , 通常转写结果是篇章段落 , 且多含有口语化的表达 , 通过我们的识别后处理功能 , 可以将会议转写结果整理成格式化 , 易读易懂的会议记录 。
第三 , 增量学习 。
受限于深度神经网络技术中的灾难性遗忘问题 , 采用深度学习方法的ASR建模在权衡“既要保障模型原有识别效果 , 又要提升新的目标场景识别效果”时 , 通常采用基于新旧数据混合训练的方法 。 弊端是 , 该方法增长了模型优化的周期 , 又会带来数据安全隐患 。 基于思必驰自研的KDF-IL增量学习方法 , 在语音识别优化时 , 可以仅用新增数据进行模型训练 , 缩短开发周期同时 , 也有效保障数据安全 。
第四 , 小样本学习 。
自研的小样本迁移学习技术 , 使用少量数据就可快速实现场景体验优化 。 例如使用少量带标注的文本数据 , 即可对标点断句模型进行优化 , 相对传统模式调优 , 节省了83%的数据量 。 例如 , 在真实的航空质检场景中 , 通用的标点断句模型面对特殊的专业术语和断句方式 , 一定会水土不服 。 得益于小样本迁移学习技术 , 在使用少量的标注文本情况下 , 即可实现F值40%左右的绝对值提升 , 完成体验效果从不可用到可用的转变 。
最后 , 咳咳….(这个氛围是不是该升华了)在功能层面 , 我们深知不同用户的使用场景复杂多样 , 单靠赋能用户自主训练ASR模型不能满足需求 。
我们!(升华来了)秉承以解决用户实际问题为核心的产品理念 , 开放端点检测模型自训练、标点断句自训练等功能 , 使得用户可以通过我们的产品 , 完成识别系统中几乎所有模块功能的自训练 , 最大程度优化用户体验 。
Q:啊 , 真不愧是“人类之光” 。 求问 , 没经验可以用吗?
A:平台建立的出发点就是降低 AI 使用门槛 , 只要企业有数智化转型的需求 , 我们就能匹配提供高可用定制的模型 。 平台的私有化部署能力 , 也能将自主权交给企业自己 , 非AI专家都能使用 , ”零“学习成本 。
Q:怎么合作呢?
A:平台同时满足「模块化输出」+「支持 UI可视化界面 /API输出」这两点 , 可以根据业务需求灵活配置 , 选择使用一体化平台的全部功能 , 或者只使用其中几个模块的功能 。
Q:可以拓展使用吗?
A:当然可以 , 「全场景覆盖」是平台的一大优点 。 适用于各类行业场景 , 如会议办公、航空通讯、智慧医疗、城市交通、数字化门店、智慧园区、线下质检、政务、庭审等等 , 可以快速从当前项目复用到新项目中 , 形成规模化生产定制 , 满足多样化的业务需求 。
Q:怎么联系你们呢?
如有合作意向 , 请发邮件:
marketing@aispeech.com
Q: 好 , 不愧是气质不凡的你们!今天收获颇丰!
【平台|技术解读思必驰DUI标注训练一体化平台,语音识别全场景覆盖】A:总结下 , 就是我们在一个科技开放和包容的时代 , 和一群特别Cool的人 , 做了些特别Cool的产品和事情 。 如果你想更了解我们 , 欢迎随时交流 。
推荐阅读
- 技术|“2”类医械有重大进展:神经介入产品井喷、基因测序弯道超车
- 机身重量|黑科技眼控对焦23年后回归,升级! 江一白解读EOS R3
- 选型|数据架构选型必读:2021上半年数据库产品技术解析
- IT|95306铁路货运电子商务平台升级上线 可24小时办理货运业务
- 技术|使用云原生应用和开源技术的创新攻略
- Intel|英特尔放出i9-12900K平台PCIe 5.0 SSD演示 突破13GB/s传输速率
- 技术|聚光科技旗下临床质谱仪获批医疗器械注册证
- Apple|苹果高管解读AirPods 3代技术细节 暗示蓝牙带宽可能成为瓶颈
- MateBook|深度解析:华为MateBook X Pro 2022的七大独家创新技术
- Intel|Intel在Alder Lake平台演示PM1743 PCIe Gen 5 SSD,带宽达14GB/s