远场语音识别系统中的语音增强技术研究
发布时间:2020-04-23 14:01
【摘要】:在远场语音识别系统中,麦克风接收到的远场语音信号会受到背景噪声、人声干扰和混响干扰的影响,使语音的质量和可懂度显著下降,并严重影响语音识别系统的性能。因此,近年来高效的语音增强算法,包括多通道语音去混响算法、多通道波束形成算法以及单通道语音增强算法,在语音信号处理领域变得格外引人注目。对于混响干扰,最常用的方法是多通道线性预测(Multi-Channel Linear Prediction,MCLP)自适应去混响算法;对于人声干扰,目前主要依赖波束形成算法抑制指定方向外的干扰;对于背景噪声,除传统的信号处理算法外,基于深度神经网络(Deep Neural Network,DNN)的方法也已经开始应用到语音增强领域中。目前波束形成算法主要采用广义旁瓣相消器(Generalized Sidelobe Canceller,GSC),因此,本文没有详细描述波束形成算法,而是主要对MCLP自适应去混响算法以及单通道的语音增强算法进行了研究,主要的研究内容如下:首先,针对递归最小二乘(Recursive Least Squares,RLS)算法在理论上具有数值不稳定性的问题,本文对原型的基于RLS的MCLP自适应去混响算法进行改进,提出了基于正交分解的递归最小二乘(QR-decomposition Recursive Least Squares,QRRLS)的MCLP自适应去混响算法,该算法具有与原型算法相同的去混响特性和更好的数值稳定性。然后,在基于QR-RLS的MCLP自适应去混响算法的基础上,推导了基于可变遗忘因子的正交三角分解递归最小二乘(Variable Forgetting Factor QRdecomposition Recursive Least Squares,VFFQR-RLS)的MCLP自适应去混响算法。该算法可以根据系数向量的变化来选择合适的遗忘因子,使得算法在收敛性和最小均方误差(Minimum Mean Square Error,MMSE)之间达到较好的均衡。仿真实验表明,在不同的混响特性下,两种改进的MCLP自适应去混响算法均具有较好的去混响性能和稳定性。其次,针对基于DNN的单通道语音增强算法,本文提出了基于渐进式深度神经网络(Progressive Deep Neural Networks,PDNNs)以及渐进式长短期记忆网络(Progressive Long Short-Term Memory Networks,PLSTMs)来解决原型DNN语音增强算法在低信噪比下性能严重下降的问题。该方法将整个增强任务分解为多个子任务来完成,并且前面完成的子任务会为后面的子任务提供先验知识,使得后面的子任务可以更好地学习它的目标。针对学习目标,本文也提出了对于多个子任务基于信噪比的语音特征。仿真结果表明,提出的基于PDNNs和基于PLSTMs的单通道语音增强算法在各个信噪比下的性能对比原始的DNN和LSTMs(Long Short-Term Memory Networks,LSTMs)均有显著的提升,其中包括在低信噪比下的泛化性,以及在抑制噪声的同时,也减小了语音信号的失真度。最后,本文提出了远场语音识别系统中的语音增强框架,包括维纳滤波预处理模块、语音去混响模块、波束形成模块以及单通道后处理模块。仿真实验表明,提出的语音增强框架能有效地抑制远场语音识别系统中存在的干扰,对于语音质量以及语音可懂度有显著的提升效果。
【图文】:
第 1 章 绪论第 1 章 绪论1.1 研究背景及意义远场语音识别系统性能很大程度上受到周围环境的影响,比如房间混响干扰声干扰、背景噪声以及一些机器内部噪声等。这些干扰信号会严重降低语音信质量和可懂度,从而极大地降低了远场语音识别系统的性能。首先影响远场语别系统的一个重要因素就是房间混响,混响是由于室内各种障碍物反射所产生个混响干扰产生的简易示意图如图 1.1 所示。
图 2.3 基于深度神经网络的语音增强的流程图①特征提取在深度学习的语音增强领域中,主要有两类特征可以选择,分别是谱特征和掩蔽特征。在谱特征中,主要使用的是对数谱以及对数功率谱(log-powerspectra,LPS这是由于对数可以缩小数值的范围,从而减小目标的学习范围,而 LPS 是目前使用最为广泛的谱特征,其定义如下l f 2Y (t , f ) log (Y (t , f)) (2.18式中以带噪语音为例,lY (t , f )表示带噪语音的对数功率谱,fY (t , f )表示带噪语音的幅度谱,,通过带噪语音的短时傅里叶变换的模值得到。另外一类是掩蔽特征,是一种信号的时频掩蔽,主要使用的时频掩蔽特征是理想二值掩蔽(IdealBinaryMask,IBM)[47]、目标二值掩蔽(TargetBinaryMask,TBM)[48]
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.3
【图文】:
第 1 章 绪论第 1 章 绪论1.1 研究背景及意义远场语音识别系统性能很大程度上受到周围环境的影响,比如房间混响干扰声干扰、背景噪声以及一些机器内部噪声等。这些干扰信号会严重降低语音信质量和可懂度,从而极大地降低了远场语音识别系统的性能。首先影响远场语别系统的一个重要因素就是房间混响,混响是由于室内各种障碍物反射所产生个混响干扰产生的简易示意图如图 1.1 所示。
图 2.3 基于深度神经网络的语音增强的流程图①特征提取在深度学习的语音增强领域中,主要有两类特征可以选择,分别是谱特征和掩蔽特征。在谱特征中,主要使用的是对数谱以及对数功率谱(log-powerspectra,LPS这是由于对数可以缩小数值的范围,从而减小目标的学习范围,而 LPS 是目前使用最为广泛的谱特征,其定义如下l f 2Y (t , f ) log (Y (t , f)) (2.18式中以带噪语音为例,lY (t , f )表示带噪语音的对数功率谱,fY (t , f )表示带噪语音的幅度谱,,通过带噪语音的短时傅里叶变换的模值得到。另外一类是掩蔽特征,是一种信号的时频掩蔽,主要使用的时频掩蔽特征是理想二值掩蔽(IdealBinaryMask,IBM)[47]、目标二值掩蔽(TargetBinaryMask,TBM)[48]
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 杨正哲;任玉玲;杜省;柳瑞波;;分区域方言客服语音识别系统研究[J];网络新媒体技术;2019年01期
2 高飞;黄哲莹;王子腾;李军锋;颜永红;;早晚期混响划分对理想比值掩蔽在语音识别性能上的影响[J];声学学报;2019年04期
3 周晓武;;嵌入式实时英语语音识别系统的设计与研究[J];电子设计工程;2017年08期
4 肖明尧;;基于嵌入式的语音识别系统设计与实现[J];长春师范大学学报;2017年10期
5 杨龙;;浅析小型语音识别系统的研究和开发[J];信息化建设;2015年10期
6 ;法苑传真[J];江淮法治;2016年22期
7 ;语音识别系统[J];少先队活动;2014年05期
8 任
本文编号:2637812
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2637812.html