(文章来源:读芯术)
自动语音识别(asr)是一种将口语转换为文本的过程。该技术正在不断应用于即时通讯应用程序、搜索引擎、车载系统和家庭自动化中。尽管所有这些系统都依赖于略有不同的技术流程,但这些所有系统的第一步都是相同的:捕获语音数据并将其转换为机器可读的文本。
但 asr 系统如何工作?它如何学会辨别语音?本文将简要介绍自动语音识别。我们将研究语音转换成文本的过程、如何构建asr 系统以及未来对asr技术的期望。asr 系统:它们如何运作?因此,从基础层面来看,我们知道自动语音识别看起来如下:音频数据输入,文本数据输出。
但是,从输入到输出,音频数据需要变成机器可读的数据。这意味着数据通过声学模型和语言模型进行发送。这两个过程是这样的:声学模型确定了语言中音频信号和语音单位之间的关系,而语言模型将声音与单词及单词序列进行匹配。这两个模型允许 asr 系统对音频输入进行概率检查,以预测其中的单词和句子。然后,系统会选出具有最高置信度等级的预测。*
*有时语言模型可以优先考虑某些因其他因素而被认为更有可能的预测。在这里,值得一提的是,如果自动语音识别系统是语音用户界面的一部分,则 asr 模型将不是唯一在运行的机器学习模型。许多自动语音识别系统都与自然语言处理 (nlp) 和文本语音转换 (tts) 系统配合使用,以执行其给定的角色。也就是说,深入研究语音用户界面本身就是个完整的话题。
那么,现在知道了 asr 系统如何运作,但需要构建什么?关键是数据。建立 asr 系统:数据的重要性。优秀的 asr 系统应该具有灵活性。它需要识别各种各样的音频输入(语音样本),并根据该数据做出准确的文本输出,以便做出相应的反应。
为实现这一点,asr 系统需要的数据是标记的语音样本和转录形式。比这要复杂一些(例如,数据标记过程非常重要且经常被忽略),但为了让大家明白,在此将其简化。asr 系统需要大量的音频数据。为什么?因为语言很复杂。对同一件事有很多种讲述方式,句子的意思会随着单词的位置和重点而改变。还考虑到世界上有很多不同的语言,在这些语言中,发音和单词选择可能会因地理位置和口音等因素而不同。
哦,别忘了语言也因年龄和性别而有所不同!考虑到这一点,为 asr系统提供的语音样本越多,它在识别和分类新语音输入方面越好。从各种各样的声音和环境中获取的样本越多,系统越能在这些环境中识别声音。通过专门的微调和维护,自动语音识别系统将在使用过程中得到改进。
因此,从最基本的角度来看,数据越多越好。的确,目前进行的研究和优化较小数据集相关,但目前大多数模型仍需要大量数据才能发挥良好的性能。幸运的是,得益于数据集存储库和专用的数据收集服务,音频数据的收集变得越发简单。这反过来又增加了技术发展的速度,那么,接下来简单了解一下,未来自动语音识别能在哪些方面大展身手。
asr 技术已融身于社会。虚拟助手、车载系统和家庭自动化都让日常生活更加便利,应用范围也可能扩大。随着越来越多的人接纳这些服务,技术将进一步发展。
供电系统自动化系统的电源配置方案介绍
2017诺基亚8、小米6 MIX、魅族pro7、华为P10外形大改变,网友评华为P10最漂亮
信号干扰仪作用 特信反制无人机产品特点
爱立信CEO鲍毅康:爱立信的使命到底是什么
双极型晶体管电流增益温度特性的研究
ASR语音技术的原理以及未来发展趋势分析
努比亚宣布将于9月5日发布红魔3S电竞手机 将搭载骁龙855Plus
台积电设备工程师:工作是个体力活
万能拉力试验机怎么挑选合适的夹具?类型、尺寸、大小
重磅!中微爱芯推出超小极薄无引脚封装逻辑器件
科研农田小气候观测仪的特点是什么
用MiniLED电视看跨年晚会,堪比现场的既视感
面板产业产能过剩局面即将打破
iphone8什么时候上市?iphone8最新消息:iphone8模型或已确定,全面屏+隐藏Home键,给你完美的视觉体验
一文看懂LED显示屏视频处理器的9大作用及技术特点
掌握成本计算:大模型AI应用的关键要素
与苏吉虎教授面对面交流!EPR学术盛宴火热进行中···
莱德装备获数千万元天使轮投资
中国发布全球首款可见光通信芯片,有光就可上网
Apollo 3.5 技术架构详解全程回顾