基于DSP的高速实时语音识别系统的设计

实时语音识别系统中,由于语音的数据量大,运算复杂,对处理器性能提出了很高的要求,适于采用高速dsp实现。虽然dsp提供了高速和灵活的硬件设计,但是在实时处理系统中,还需结合dsp器件的结构及工作方式,针对语音处理的特点,对软件进行反复优化,以缩短识别时间,满足实时的需求。因此如何对dsp进行优化编程,解决算法的复杂性和硬件存储容量及速度之间的矛盾,成为实现系统性能的关键。本文基于tms320c6713设计并实现了高速实时语音识别系统,在固定文本的说话人辨识的应用中效果显著。
1 语音识别的原理
语音识别的基本原理框图如图1所示。语音信号中含有丰富的信息,从中提取对语音识别有用的信息的过程,就是特征提取,特征提取方法是整个语音识别系统的基础。语音识别的过程可以被看作足模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一模型获得最佳匹配。
1.1 mfcc
语音识别中对特征参数的要求是:
(1) 能够有效地代表语音特征;
(2) 各阶参数之间有良好的独立性;
(3) 特征参数要计算方便,保证识别的实时实现。
系统使用目前最为常用的mfcc(mel frequencycepstral coefficient,美尔频率倒谱系数)参数。
求取mfcc的主要步骤是:
(1) 给每一帧语音加窗做fft,取出幅度;
(2) 将幅度和滤波器组中每一个三角滤波器进行binning运算;
(3) 求log,换算成对数率;
(4) 从对数率的滤波器组幅度,使用dct变换求出mfcc系数。
本文中采用12阶的mfcc,同时加过零率和delta能量共14维的语音参数。
1.2 dtw
语音识别中的模式匹配和模型训练技术主要有dtw(dynamic time warping,动态时间弯折)、hmm(hidemarkov model,隐马尔科夫模型)和ann(artificial neu-ral network,人工神经元网络)。
dtw是一种简单有效的方法。该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。dtw算法的原理是计算两个长度不同的语音之间的相似程度,即失真距离。
设测试语音和参考语音用t和r表示,他们分别含有n帧和m帧的语音参数。本文中每帧语音的特征参数为14维,因此t,r分别为n×14和m×14的矩阵。把测试语音的各个帧号x=1~n在一个二维直角坐标系中的横轴上标出,把参考语音的各帧号y=1~m在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格,网格中的每一个交叉点(x,y)表示测试模式中某一帧号与训练模式某一帧的交叉点,对应于两个14维向量的欧氏距离。dtw算法在于寻找一条通过此网格中若干交叉点的路径,使得该路径上节点的路径和最小。算法示意图如图3所示。
2 系统硬件环境
本系统的核心芯片为ti公司的32位浮点数字信号处理器tms320c6713。其时钟频率最高可达300 mhz,处理能力可以高达1 336 mips和1 000 mflops。由于256 kb的片上ram无法满足多路信号处理时的空间需求,系统通过emif(external memory interface,外部存储器接口)扩展了32 mb的外部sdram,并采用edma(external direct memory access,扩展的直接存储器访问)方式对这些外部空间进行访问。
tms320c6713有2个mcbsps(multi-channel buff-ered serial port,多通道缓冲串口),每个mcbsp,可与多达128个通道进行收发。本系统中采用mcbsp0实现数字语音信号到dsp的输入,dsp进行实时判别后输出结果。
3 软件实现
由于tms320c6x系列的c语言编译器的效率可达汇编语言的70%~80%,并且c语言具有开发周期短、可维护性好、可移植性好、可继承性好等优点,所以软件采用c语言实现。
3.1 软件流程
测试中采用10个参考模板,每个模板由相应的参考语音中2 s的语音数据训练而成。识别策略为每路积累2 s的接收语音数据后与逐个参考模板进行匹配,如果经由dtw运算所得的距离值小于特定的门限,就判决已匹配。如果不匹配,就继续接收匹配,超过8 s匹配不上,就放弃。软件流程框图如图5所示,其中语音数据的采样率为8 000 hz,每帧取256个采样点,即32 ms的数据为一帧。
程序调试通过后,采用ccs对其实时性进行分析。ccs(code composer studio,代码编译器)是ti公司提供的软件开发环境。他扩展了基本的代码生成工具,集成了调试和实时分析功能。在ccs下,程序通过wintech tds510仿真器接到目标板的jtag口进行硬件仿真测试。
测试发现1帧信号的处理时间为78 135 679个指令周期,即391 ms(tms320c6713工作在200 mhz),远远达不到实时处理的要求,必须对其进行优化。
3.2 代码的优化
首先根据ti公司提供的软件开发流程,从合作编译器选项、使用内联函数、使用字访问短整型数据和使用软件流水等方面对代码进行了优化。具体实现中,采用-pm选项、-op3选项和-o3选项对程序进行了重新编译。展开内层循环,并通过#pragma must iterate()告诉编译器循环执行的次数,上述优化后,处理一帧的时间从78 135 679个指令周期降到了50 364 683个指令周期,但是还是无法满足实时性的要求。
进一步对代码进行测试分析,提取mfcc参数的过程中,256点的实数fft运算占用了大量的时间。ti公司针对c6000系列的dsp提供了丰富的库函数可以方便地调用。这里,从dsp67x.lib中调用dspf_dp_cfftr4_dif()进行256点实数的fft运算,把提取mfcc的时间降为了0.72 ms。
由于采用10个参考模板,每路数据一次识别就要进行10次dtw的运算,所以如何减少dtw的运算时间是优化的重点。对dtw的优化从两方面进行,首先采用查表法缩小匹配时搜索的区域。
由于dtw匹配的过程中限定了弯折的斜率,因此好多格点实际上是达不到的,如图6所示。因此菱形之外的格点对应的帧匹配距离是不需要计算的。在本系统的应用中,因为每次都以2 s和2 s的语音数据进行匹配,m和n都固定是64帧,所以可以建一个表格储存菱形区域内的测试帧号和参考帧号,匹配时只计算表格中两帧间的矢量距离,即欧氏距离,从而把欧氏距离的运算从40 960次减少到了19 460次。
在采用dtw快速算法后,还需进行了19 460次欧氏距离的运算。测试可得,每次运算耗时1 524个指令周期,所以这部分的运算仍是影响识别速度的关键。为了进一步提高代码的性能,把这段代码改为线性汇编来实现。
完成上述全部优化后,测试得到,处理一帧的时间为1 849 365个指令周期,其中tms320c6713工作在200 mhz,即处理1帧的时间为1 849 365/200 000 000=9.25 ms,达到0.29倍实时。
4 实验及小结
为了测试上述系统的识别性能,对其进行了固定文本的说话人辨识实验。实验中,采用录音设备录制了10个人、3个不同时间所说的同一句话,共30句,平均时间长度为4.5 ms。从每个人的3句话中选择频谱最清晰的一句训练成模板,另外录制20句由这10个人所说的长度接近但内容不同的语音做测试语音。这样模板库中有10个模板,测试语音有50个。
首先通过各模板间的匹配,确定了判决门限0.2,然后把50句测试语音依次送入识别系统,所有语音全部正确匹配。
本文通过对dtw算法的改进,结合tms320c6713的特点对c代码进行了优化,在保证识别率的情况下,用tms320c6713成功地实现了语音信号的高速实时识别。

LR3000导波雷达电子液位传感器的安装和使用
如何避免高速PCB设计中传输线效应
直流减速电机的优缺点_直流无刷减速电机的优缺点
各大手机厂商的5G手机之争从暗战到明战价格将成为关键
Altera交付Stratix IV GX收发器信号完整性开
基于DSP的高速实时语音识别系统的设计
LED芯片生产过程与MOCVD知识
智能汽车将促进嵌入式软件架构的接受度
新时代的扫地机器人未来该如何发展
电路交换的主要特点
buck电路的拓扑结构 buck电路临界条件怎么来的
魅族17联合中国移动积极投身5G
Google推出AI平台-构建运行和管理ML项目的端到端平台
智慧安防逐渐打破视频应用的局限
Microchip四款CAN MCU采用28引脚 封装业界最小
什么蓝牙耳机音质好?降噪效果好的四款蓝牙耳机测评
我国互联网医疗的发展现状概况
中国央行开展中期借贷便利操作1000亿元 对物联网产业有哪些好处
华为联合伙伴发布Powered by Kunpeng、鲲鹏计算产业发展白皮书(2020)
直流有刷电机绕组和线圈的绕法