某些语音识别系统(asr)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司avaya的研究人员一项正在进行的研究主要发现。
这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(word error rate, wer)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(nlp)领域存在更多待克服的问题。
据了解,目前asr已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。asr模型的综合基准中,标准语料库的wer仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数asr的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套asr系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现asr系统的错误率基本在15%以下,这与基准测试中的2%相悖。
而基于保险、通信、预定等金融行业的语料库中,作者发现其wer的测试结果高达23.31%。其中,预定和通信的错误率最高,可能是因为对话涉及特定的日期、时间、订单金额、地点、产品和公司名称等。但在所有领域的测试中,其错误率均高于13.73%。
研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如librispeech(1000小时英语有声读物录音)、wsj(新闻口述的谈话)和switchboard(电话交谈),这些都可能太过简单而无法真正挑战asr系统的可靠性。
而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。
作为一种补救措施,研究人员建议asr和nlp社区收集和注释音频数据集,使其更好地与asr系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。
因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对asr准确性的过于乐观会损害nlp领域下游应用程序的开发。”研究人员最后表示。
责编ajx
EP9去美国拿下了无人驾驶第一,那蔚来怎么看Roborace锦标赛?
tda2822 工作电压及各引脚工作电压
苹果进一步推动可穿戴设备发布新款AirPods
SR73F大角度避障77GHz毫米波雷达在智慧驾培的应用
半导体市场一路飙升至13077亿美元的背后
研究证明:商业语音识别系统的错误率非常高
广州市推出5G+智能电网示范区领跑全国
iOS10.2越狱有风险,还是等待iOS10.3十号的发布吧!不会让你失望的
如何更好的培育我国制造业新的竞争优势
短距离无线通信技术的优缺点
简单可靠的电源纹波的测试方法
针对高速螺纹钢表面缺陷检测技术难题的研究报告
ZLG震撼发布开源GUI引擎AWTK
电瓶车电池修复——串联运行中的“反木桶原理”
空调价格战激烈 意在清理低能效库存缩减压力
选择连接器的注意事项 你get到了吗
飞机座舱设计成气密的的原因解释
HPC应用如何使用GPU加速计算
电子元件经销商Digi-Key公司为注册用户推出“按价格分类
测试SMPS电路的方法