研发出了一种简单的新型模型,该模型不仅完美地融合了声学和语音线索,而且将说话人分类和语音识别任务融合在了同一个系统中。相较于相同环境下仅仅进行语音识别的系统相比,这个集成模型并没有显著降低语音识别性能。
我们意识到,很关键的一点是:rnn-t 架构非常适用于集成声学和语言学线索。rnn-t 模型由三个不同的网络组成:(1)转录网络(或称编码器),将声帧映射到一个潜在表征上。(2)预测网络,在给定先前的目标标签的情况下,预测下一个目标标签。(3)级联网络,融合上述两个网络的输出,并在该时间步生成这组输出标签的概率分布。
请注意,在下图所示的架构中存在一个反馈循环,其中先前识别出的单词会被作为输入返回给模型,这使得 rnn-t 模型能够引入语言学线索(例如,问题的结尾)。
集成的语音识别和说话人分类系统示意图,该系统同时推断「谁,在何时,说了什么」
在图形处理单元(gpu)或张量处理单元(tpu)这样的加速器上训练 rnn-t 并不是一件容易的事,这是因为损失函数的计算需要运行「前向推导-反向传播」算法,该过程涉及到所有可能的输入和输出序列的对齐。最近,该问题在一种对 tpu 友好的「前向-后向」算法中得到了解决,它将该问题重新定义为一个矩阵乘法的序列。我们还利用了tensorflow 平台中的一个高效的 rnn-t 损失的实现,这使得模型开发可以迅速地进行迭代,从而训练了一个非常深的网络。
这个集成模型可以直接像一个语音识别模型一样训练。训练使用的参考译文包含说话人所说的单词,以及紧随其后的指定说话人角色的标签。例如,「作业的截止日期是什么时候?」,「我希望你们在明天上课之前上交作业」。当模型根据音频和相应的参考译文样本训练好之后,用户可以输入对话记录,然后得到形式相似的输出结果。我们的分析说明,rnn-t 系统上的改进会影响到所有类型的误差率(包括较快的说话者转换,单词边界的切分,在存在语音覆盖的情况下错误的说话者对齐,以及较差的音频质量)。此外,相较于传统的系统,rnn-t 系统展现出了一致的性能,以每段对话的平均误差作为评价指标时,方差有明显的降低。
传统系统和 rnn-t 系统错误率的对比,由人类标注者进行分类。
此外,该集成模型还可以预测其它一些标签,这些标签对于生成对读者更加友好的 asr 译文是必需的。例如,我们已经可以使用匹配好的训练数据,通过标点符号和大小写标志,提升译文质量。相较于我们之前的模型(单独训练,并作为一个 asr 的后处理步骤),我们的输出在标点符号和大小写上的误差更小。
动力电池投资风口转向 氢能行业会诞生下一个宁德时代吗?
真安全!西部数据助力海康威视 发布个人私有云存储系统
三星半导体Exynos VR一体机解决方案详解
自动驾驶迎来它的黄金时代_制造一台激光雷达仅用8分钟
诺基亚8竟然上架了!MWC未开始就暗处交锋?
谷歌在语音识别技术领域获得新进展
医疗行业的发展离不开人工智能AI
美国总统向美国7大科技企业CEO承诺 授权他们向华为供货交易
热过载继电器型号含义
碳化硅(SiC)龙头企业Cree年底改名为Wolfspeed
被明星疯狂种草的立式吹风机到底香在哪里?!
浅谈电瓶修复技术,如何来判断电池的好与坏
安科瑞智能照明控制系统的解决方案说明
新唐科技N32905U1DN简介
苹果计划将2020年的新款iPhone捆绑AirPods进行销售
汽车LED驱动器如何正确的选择合适的
P6039A高压衰减棒的使用方法及注意事项
三星发布处理器与魅族有什么关系?
通用电气和埃森哲共同推出的“智能管道解决方案”
使用机器学习来重新诠释塞尚的印象派画作