复杂噪声环境下语音识别研究
发布时间:2020-12-18 21:21
人机交互的不断发展,要求自动语音识别(ASR)能够在真实世界的各种噪声和其他声学干扰条件下保持鲁棒性。复杂噪声环境下语音识别的低准确性引起了学者们的广泛关注。当前主流方法可大致分为三类:基于寻找新特征的、基于噪声环境分类的、基于语音增强的。本文使用伽马通滤波器倒谱系数作为复杂噪声环境下的语音特征,并设计一种基于卷积神经网络与长短时记忆网络相结合的语音识别方法,提取训练语音的谱图,利用注意力网络进行自适应特征细化。然后将注意图与输入特征图相乘,实现噪声环境下的语音识别。本文主要论述了:(1)语音信号处理的基本任务。将处理任务分类为三大类,包括语音识别、自然语言处理、语音合成,并着重介绍了与本文相关的语音识别问题,阐述了其所包含的文本识别、声纹识别、情感识别三个子问题所运用的声学模型。(2)语音识别问题的处理方法。对语音信号进行预滤波、预加重、分帧、端点检测等处理的目的,并介绍常用语音信号的特征以及各特征在噪声环境的表现,藉此引入噪声对语音识别的影响。(3)不同特征在噪声环境中的识别能力有所差异。GFCC特征相比传统主流特征具有更好的抗噪性能,在不同噪声环境中表现均优于MFCC特征。(4)...
【文章来源】:武汉邮电科学研究院湖北省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
语音识别系统框图
调整,更多的是针对稳定噪声环境,最典型的应用便是降噪处理,如小波降噪、自适应滤波等。小波降噪是一类广泛使用的降噪手段,语音信号是一种非平稳信号,通常的傅里叶变换只能得知一段信号总体上包含哪些频率分量,而不能得知各个频率分量出现的时刻。其结果可能导致两个在时域相差较大的信号,在频域具有相同的变换结果。而小波变换能将信号的频谱分解到不同的频率范围从而得到其子带信号,因此可以使用正交小波变换,把信号的能量集中到某些频带的少数系数上,将其他频带上的小波系数置零,以达到抑制噪声的目的[52]。图2-3为小波变换的三层分解示意图,cA1、cA2、cA3为分解各层的基信号,cD1、cD2、cD3为分解各层的细节信号,即高频部分,无序的噪声通常包含其中。将cD1、cD2、cD3的分解系数置零或以门限阈值形式对该小波系数进行处理,然后重构小波,即得到降噪之后的信号。自适应滤波是指利用前一时刻已获得的滤波器参数等结果,自动调节现时刻滤波器参数,以适应信号和噪声未知的或随机变化的统计特性,从而实现最优滤波的手段[53],具有计算量孝不依赖输入信号长时特性的优点,因而适合于实时处理任务。最小均方(LeastMeanSquare,LMS)自适应滤波器是一种广泛使用的针对平稳信号设计的滤波器,与非平稳信号一样,平稳信号也是一种随机信号,不同之处在于平稳信号的分布参数或者分布律等统计特性不随时间发生变化,若一段平稳信号为nX)(,则图2-3小波分解结构示意图
武汉邮电科学研究院硕士学位论文16)(|)(|)()()1(2kXkxkekkWW+=+(2-27)其滤波效果如图2-5所示:图的左列为叠加了白噪声的语音信号,从上到下依次信号的信噪比依次为20dB、10dB、5dB、0dB,图的右列为滤波后的结果,可以看出,自适应滤波在滤波初始都有震荡,但震荡收敛快,因此可以较好地还原语音信号。谱减法是一种基于噪声能量,在语音信号中减去噪声干扰的常用降噪手段。其具体实现步骤如下:首先,完成对语音信号的分帧,获得帧长为N的语音片段,对当前帧进行离散傅里叶变换(DiscreteFourierTransformation,DFT),获得其幅值和相位。然后,在语音的开端或结尾,寻找纯净的噪声语音片段,使用下式获得该帧信号的平均能量,具体表达式见式(2-28)。==NiikXkND12|)(|1)((2-28)其中kX)(i即为当前帧的离散傅里叶变换结果。最后,对所有帧语音信号减去噪声平均能量与一个修正因子的乘积,保留当前帧的相位,使用快速傅里叶逆变换(InverseFastFourierTramsform,IFFT)获得谱减法降噪后的语音信号。图2-6所示的是使用谱减法的滤波效果,左列为叠加了白噪声的语音信号,从上到图2-5不同信噪比下的语音信号及NLMS滤波效果
【参考文献】:
期刊论文
[1]口语理解中改进循环神经网络的应用[J]. 张晶晶,黄浩,胡英,吾守尔·斯拉木. 计算机工程与应用. 2019(18)
[2]一种改进的DNN-HMM的语音识别方法[J]. 李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱. 应用声学. 2019(03)
[3]融合非线性幂函数和谱减法的CFCC特征提取[J]. 白静,史燕燕,薛珮芸,郭倩岩. 西安电子科技大学学报. 2019(01)
[4]多噪声环境下的层级语音识别模型[J]. 曹晶晶,许洁萍,邵聖淇. 计算机应用. 2018(06)
[5]语音识别技术的研究进展与展望[J]. 王海坤,潘嘉,刘聪. 电信科学. 2018(02)
[6]联合HMM-UBM与RVM的声纹密码识别算法[J]. 胡志隆,文畅,谢凯,贺建飚. 计算机工程. 2018(11)
[7]情感语音数据库优化及PAD情感模型量化标注[J]. 张雪英,张婷,孙颖,张卫,畅江. 太原理工大学学报. 2017(03)
[8]一种新的听觉特征提取算法研究[J]. 林海波,王可佳. 南京邮电大学学报(自然科学版). 2017(02)
[9]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[10]基于PAD情绪模型的情感语音识别[J]. 宋静,张雪英,孙颖,张卫. 微电子学与计算机. 2016(09)
博士论文
[1]基于深度神经网络的语音识别模型研究[D]. 张仕良.中国科学技术大学 2017
硕士论文
[1]面向语音识别的抗噪听觉特征提取及优化[D]. 史燕燕.太原理工大学 2019
[2]基于小波包分解的MFCC在复杂环境声音识别中的应用[D]. 俞颂华.南宁师范大学 2019
[3]基于HMM的非特定人语音识别系统研究[D]. 赵硕.安徽大学 2019
[4]基于深度神经网络的连续语音识别研究[D]. 李明浩.吉林大学 2018
[5]融合LPCC和MFCC特征参数的语音识别技术的研究[D]. 张文克.湘潭大学 2016
[6]基于GMM-HMM的声学模型训练研究[D]. 王为凯.华南理工大学 2016
[7]深度神经网络在中文语音识别系统中的实现[D]. 张德良.北京交通大学 2015
[8]语音识别关键技术研究[D]. 王一蒙.电子科技大学 2015
[9]基于CFCC的语音识别系统设计及在物联网上的应用[D]. 张锡冰.东北大学 2013
本文编号:2924628
【文章来源】:武汉邮电科学研究院湖北省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
语音识别系统框图
调整,更多的是针对稳定噪声环境,最典型的应用便是降噪处理,如小波降噪、自适应滤波等。小波降噪是一类广泛使用的降噪手段,语音信号是一种非平稳信号,通常的傅里叶变换只能得知一段信号总体上包含哪些频率分量,而不能得知各个频率分量出现的时刻。其结果可能导致两个在时域相差较大的信号,在频域具有相同的变换结果。而小波变换能将信号的频谱分解到不同的频率范围从而得到其子带信号,因此可以使用正交小波变换,把信号的能量集中到某些频带的少数系数上,将其他频带上的小波系数置零,以达到抑制噪声的目的[52]。图2-3为小波变换的三层分解示意图,cA1、cA2、cA3为分解各层的基信号,cD1、cD2、cD3为分解各层的细节信号,即高频部分,无序的噪声通常包含其中。将cD1、cD2、cD3的分解系数置零或以门限阈值形式对该小波系数进行处理,然后重构小波,即得到降噪之后的信号。自适应滤波是指利用前一时刻已获得的滤波器参数等结果,自动调节现时刻滤波器参数,以适应信号和噪声未知的或随机变化的统计特性,从而实现最优滤波的手段[53],具有计算量孝不依赖输入信号长时特性的优点,因而适合于实时处理任务。最小均方(LeastMeanSquare,LMS)自适应滤波器是一种广泛使用的针对平稳信号设计的滤波器,与非平稳信号一样,平稳信号也是一种随机信号,不同之处在于平稳信号的分布参数或者分布律等统计特性不随时间发生变化,若一段平稳信号为nX)(,则图2-3小波分解结构示意图
武汉邮电科学研究院硕士学位论文16)(|)(|)()()1(2kXkxkekkWW+=+(2-27)其滤波效果如图2-5所示:图的左列为叠加了白噪声的语音信号,从上到下依次信号的信噪比依次为20dB、10dB、5dB、0dB,图的右列为滤波后的结果,可以看出,自适应滤波在滤波初始都有震荡,但震荡收敛快,因此可以较好地还原语音信号。谱减法是一种基于噪声能量,在语音信号中减去噪声干扰的常用降噪手段。其具体实现步骤如下:首先,完成对语音信号的分帧,获得帧长为N的语音片段,对当前帧进行离散傅里叶变换(DiscreteFourierTransformation,DFT),获得其幅值和相位。然后,在语音的开端或结尾,寻找纯净的噪声语音片段,使用下式获得该帧信号的平均能量,具体表达式见式(2-28)。==NiikXkND12|)(|1)((2-28)其中kX)(i即为当前帧的离散傅里叶变换结果。最后,对所有帧语音信号减去噪声平均能量与一个修正因子的乘积,保留当前帧的相位,使用快速傅里叶逆变换(InverseFastFourierTramsform,IFFT)获得谱减法降噪后的语音信号。图2-6所示的是使用谱减法的滤波效果,左列为叠加了白噪声的语音信号,从上到图2-5不同信噪比下的语音信号及NLMS滤波效果
【参考文献】:
期刊论文
[1]口语理解中改进循环神经网络的应用[J]. 张晶晶,黄浩,胡英,吾守尔·斯拉木. 计算机工程与应用. 2019(18)
[2]一种改进的DNN-HMM的语音识别方法[J]. 李云红,梁思程,贾凯莉,张秋铭,宋鹏,何琛,王刚毅,李禹萱. 应用声学. 2019(03)
[3]融合非线性幂函数和谱减法的CFCC特征提取[J]. 白静,史燕燕,薛珮芸,郭倩岩. 西安电子科技大学学报. 2019(01)
[4]多噪声环境下的层级语音识别模型[J]. 曹晶晶,许洁萍,邵聖淇. 计算机应用. 2018(06)
[5]语音识别技术的研究进展与展望[J]. 王海坤,潘嘉,刘聪. 电信科学. 2018(02)
[6]联合HMM-UBM与RVM的声纹密码识别算法[J]. 胡志隆,文畅,谢凯,贺建飚. 计算机工程. 2018(11)
[7]情感语音数据库优化及PAD情感模型量化标注[J]. 张雪英,张婷,孙颖,张卫,畅江. 太原理工大学学报. 2017(03)
[8]一种新的听觉特征提取算法研究[J]. 林海波,王可佳. 南京邮电大学学报(自然科学版). 2017(02)
[9]卷积神经网络研究综述[J]. 李彦冬,郝宗波,雷航. 计算机应用. 2016(09)
[10]基于PAD情绪模型的情感语音识别[J]. 宋静,张雪英,孙颖,张卫. 微电子学与计算机. 2016(09)
博士论文
[1]基于深度神经网络的语音识别模型研究[D]. 张仕良.中国科学技术大学 2017
硕士论文
[1]面向语音识别的抗噪听觉特征提取及优化[D]. 史燕燕.太原理工大学 2019
[2]基于小波包分解的MFCC在复杂环境声音识别中的应用[D]. 俞颂华.南宁师范大学 2019
[3]基于HMM的非特定人语音识别系统研究[D]. 赵硕.安徽大学 2019
[4]基于深度神经网络的连续语音识别研究[D]. 李明浩.吉林大学 2018
[5]融合LPCC和MFCC特征参数的语音识别技术的研究[D]. 张文克.湘潭大学 2016
[6]基于GMM-HMM的声学模型训练研究[D]. 王为凯.华南理工大学 2016
[7]深度神经网络在中文语音识别系统中的实现[D]. 张德良.北京交通大学 2015
[8]语音识别关键技术研究[D]. 王一蒙.电子科技大学 2015
[9]基于CFCC的语音识别系统设计及在物联网上的应用[D]. 张锡冰.东北大学 2013
本文编号:2924628
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2924628.html