基于波束形成与DNN的远距离语音识别方法研究
发布时间:2020-04-09 14:28
【摘要】:近距离场景下的语音识别已经达到了令人满意的结果,但是由于受到噪声和混响等因素的影响,远距离场景下的语音识别依然具有很大的挑战性。和单路麦克风相比,麦克风阵列波束形成已经成为远场下语音智能获取与识别的重要组成部分。深度神经网络因其具有强大的建模能力,在语音识别领域中已展现出巨大的优势。因此,基于波束形成与深度神经网络的远距离语音识别成为近些年来人们的研究热点。论文以麦克风阵列和深度神经网络相关算法为基础,描述了远距离语音识别的基本理论,阐述了语音识别基本流程,分析了如何利用波束形成进行语音增强,详细描述了语音识别现阶段采用的两大类声学模型,即DNN-HMM声学模型和端到端的声学模型,以及语音识别解码的基本算法。在此基础上,论文展开了在远距离场景下结合语音增强进行语音识别的方法研究。针对传统方法将语音增强和语音识别作为两个独立过程分别处理的情况,论文给出了两种改进方案。考虑到在噪声和混响环境下多通道互相关系数信息鲁棒性更强,论文首先提出了一种基于改进波束形成器网络的远距离语音识别方法,该方法采用多通道互相关系数信息作为波束形成器网络的输入特征来估计MVDR波束形成器参数。该方法在提高原算法识别性能的同时,降低了运算复杂度,减小了系统训练时间。其次,论文提出了一种基于注意力机制声学模型的远距离语音识别方法,该方法将语音增强网络和语音识别模型作为一个整体进行联合处理,并将基于注意力机制网络的语音识别扩展到远距离的场景。仿真结果表明,该方法可以提升系统的识别性能。
【图文】:
图 2.1 语音识别原理框图Fig. 2.1 System diagram of speech recognition theory图 2.1 中,信号处理模块的功能是对采集到的音频信号进行预处理。具体包括采样量化、预加重、分帧加窗、端点检测等,由于远距离场景下采集到的语音信号会受到噪声和混响的影响,因此还可以对其进行初步降噪去混响处理。特征提取模块的功能是对预处理后的信号提取能够表征语音且易于训练的特征。常用特征包括线性预测倒谱系数(Linear Prediction Cepstral Coefficient,LPCC)、Mel 域倒谱系数(Mel Frequency CepstraCoefficient,MFCC)、Mel 滤波器组(Mel Filter Bank,,Fbank)特征等。提取的特征向量送入到声学模型进行训练,常用的声学模型有 DNN-HMM 声学模型和端到端(End tEnd)声学模型。训练好的模型结合语言模型和发音字典进行解码操作,从而得到最终的识别结果。从图中也可以看到,特征提取模块、声学模型模块和解码模块的性能均是影响语音识别结果的关键。2.2 麦克风阵列目前,远距离场景下的语音识别仍然未实现令人满意的识别结果。与单麦克风相比
图 2.2 麦克风阵列示例图Fig. 2.2 The schematic diagram of microphone array结构各阵元摆放位置的差异,阵列拓扑结构主要立体阵。每一种阵列又可以进一步分为两;随机间距。常见的拓扑结构一般为均匀阵匀球阵等,拓扑结构图分别如图 2.3(a)、(a)均匀线阵
【学位授予单位】:辽宁工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
本文编号:2620878
【图文】:
图 2.1 语音识别原理框图Fig. 2.1 System diagram of speech recognition theory图 2.1 中,信号处理模块的功能是对采集到的音频信号进行预处理。具体包括采样量化、预加重、分帧加窗、端点检测等,由于远距离场景下采集到的语音信号会受到噪声和混响的影响,因此还可以对其进行初步降噪去混响处理。特征提取模块的功能是对预处理后的信号提取能够表征语音且易于训练的特征。常用特征包括线性预测倒谱系数(Linear Prediction Cepstral Coefficient,LPCC)、Mel 域倒谱系数(Mel Frequency CepstraCoefficient,MFCC)、Mel 滤波器组(Mel Filter Bank,,Fbank)特征等。提取的特征向量送入到声学模型进行训练,常用的声学模型有 DNN-HMM 声学模型和端到端(End tEnd)声学模型。训练好的模型结合语言模型和发音字典进行解码操作,从而得到最终的识别结果。从图中也可以看到,特征提取模块、声学模型模块和解码模块的性能均是影响语音识别结果的关键。2.2 麦克风阵列目前,远距离场景下的语音识别仍然未实现令人满意的识别结果。与单麦克风相比
图 2.2 麦克风阵列示例图Fig. 2.2 The schematic diagram of microphone array结构各阵元摆放位置的差异,阵列拓扑结构主要立体阵。每一种阵列又可以进一步分为两;随机间距。常见的拓扑结构一般为均匀阵匀球阵等,拓扑结构图分别如图 2.3(a)、(a)均匀线阵
【学位授予单位】:辽宁工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34
【参考文献】
相关期刊论文 前2条
1 杨勇;李劲松;孙明伟;;基于REMOS的远距离语音识别模型补偿方法[J];重庆邮电大学学报(自然科学版);2014年01期
2 MU PengCheng;LI Dan;YIN QinYe;GUO Wei;;Robust MVDR beamforming based on covariance matrix reconstruction[J];Science China(Information Sciences);2013年04期
相关博士学位论文 前1条
1 王冬霞;麦克风阵列语音增强的若干方法研究[D];大连理工大学;2007年
相关硕士学位论文 前6条
1 时雪煜;基于回归神经网络的语音识别抗噪研究[D];中国科学技术大学;2016年
2 李平;远距离混合语音识别方法的研究[D];辽宁工业大学;2016年
3 王宜童;分布式阵列声源定位方法的研究[D];辽宁工业大学;2016年
4 王宏敏;麦克风阵列语音增强及DSP实现[D];辽宁工业大学;2015年
5 李理;基于HTK的麦克风阵列语音识别方法的研究[D];辽宁工业大学;2015年
6 周城旭;频率不变波束形成的研究[D];辽宁工业大学;2013年
本文编号:2620878
本文链接:https://www.wllwen.com/kejilunwen/wltx/2620878.html