当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度神经网络的语音增强方法研究

发布时间:2020-08-06 14:46
【摘要】:随着人工智能领域的快速发展,语音交互技术在现实生活中的应用越来越广泛。然而,语音信号非常容易受到周围环境中噪声的干扰,从而导致语音交互中的延时及错误识别等问题。语音增强技术可以有效提升语音质量和可懂度,是语音通信、语音识别等技术的重要前端信号处理技术。语音增强技术可大致分为两类:一是传统的基于数字信号处理的增强方法;二是基于有监督学习的增强方法。传统增强方法是语音增强技术的基础,具有重要研究意义。而基于深度学习的语音增强方法在大数据背景下取得了显著的效果。因此,本文将基于深度神经网络的语音增强算法作为主要研究对象,同时结合传统语音增强方法,旨在提高语音增强算法的性能。主要研究内容如下:首先,本文假设语音信号的傅里叶变换系数的幅度谱服从Chi分布,提出了Chi分布下改进的基于听觉感知广义加权的贝叶斯估计器,该估计器在去噪效果上优于传统的贝叶斯估计器。但是与平稳噪声相比,改进的贝叶斯估计器对非平稳噪声的处理效果仍不够理想。基于深度神经网络的语音增强方法虽然针对非平稳噪声效果较好,但是网络的训练过程耗时耗力。有实验证明,在深度神经网络训练阶段,使用经过增强的特征作为输入特征,会比原始特征实现更好的效果。而且经过贝叶斯估计器增强过的带噪语音信号残留的噪声类型也相对统一,在一定程度上可以减少网络训练时间和数据量。所以,本文综合二者的优点,接着提出了改进的贝叶斯估计器与深度神经网络相结合的语音增强算法。仿真实验结果表明联合的新型网络结构比单独两种算法增强效果更佳。最后,针对深度神经网络训练阶段使用的最小均方误差(Minimum Mean Square Error,MMSE)代价函数对非平稳噪声处理效果不理想的不足,本文提出采用最小误差熵(Minimum Error Entropy,MEE)代价函数代替传统MMSE代价函数。将MEE代价函数加入之前改进的语音增强算法,进而提出了一种基于MEE优化准则的联合Chi分布下基于听觉感知广义加权的贝叶斯估计器与深度神经网络的语音增强方法。通过对比实验证明了此改进方法的有效性。
【学位授予单位】:重庆邮电大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.35;TP183
【图文】:

语音增强


耳的感知特性来选择最具有针对性的语音增强方法。这就是本课题需要进行研的重点内容。1.2 语音增强技术的研究现状与发展趋势语音增强作为数字信号处理的一个分支,已经有了 50 多年的历史。虽然语增强技术看似只是一个简单的纯净语音恢复过程,但是其中涉及的知识和算法广泛而又多样的。对于语音增强方法的分类,可以按照其运用方法的不同进行成如下两大类:传统无监督基于数字信号处理的语音增强方法和有监督语音增方法[5]。其中,基于数字信号处理的语音增强方法是主流方法,历史悠久,且拥很深的技术积淀,是目前工程界进行语音降噪的主要工作路线。而在传统的数信号处理的方法中,按照其通道数目的不同,又可以进一步划分为:单通道语增强方法与麦克风阵列语音增强方法。

窗函数,样点数,频响,波形


图 2.2 窗函数波形与频响图 2.2 描绘了三种窗函数的时域波形与频域响应。窗函数的宽度越大,语音信平滑。矩形窗的第一旁瓣最窄,所以其不能改善频谱泄露,但其非常适合分态信号即幅值变化较快的信号。海明窗和汉宁窗的主瓣宽度都比较大,但是会使语音信号在时域上衰减。所以具体选择何种窗函数还需要考虑语音信号的具体情况。3 端点检测语音增强算法常常需要估计噪声,而噪声估计的重点就是在整段语音信号中语音的起止点,区分静音段和语音段,这就是端点检测的目的。在语音端点技术中,基于短时能量的语音活动性检测(Voice Activity Detection, VAD)算法为经典。它能够排除噪声环境的不利影响,提高噪声估计的准确性和极大地

信噪比,算法,噪声,工厂噪声


重庆邮电大学硕士学位论文 第 3 章 联合贝叶斯估计与深度神经网络的语音增强方法512。测试噪声是来自 NOISEX-92[66]噪声库白噪声、粉红噪声、babble 噪声和工厂噪声。测试三种算法在 0、5、10、15dB 四种不同噪声下的分段信噪比和 PESQ 值。

【参考文献】

相关期刊论文 前3条

1 虞泓波;冯大政;解虎;;相位响应固定幅度响应约束的稳健波束形成方法[J];电子与信息学报;2015年07期

2 李如玮;鲍长春;窦慧晶;;基于小波变换的语音增强算法综述[J];数据采集与处理;2009年03期

3 韩英臣;赵兴录;赵国庆;;自适应波束形成技术的发展与现状研究[J];航天电子对抗;2009年02期

相关博士学位论文 前1条

1 董婧;鲁棒语音识别技术的研究[D];吉林大学;2007年

相关硕士学位论文 前1条

1 谭乔来;语音增强方法研究及应用[D];湖南师范大学;2008年



本文编号:2782555

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2782555.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户dd072***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com