基于深层神经网络的语音增强方法研究
语音增强是语音信号处理研究领域的一个重要分支。在过去的几十年中,有很多无监督的语音增强方法被提出,它们主要是通过先估计噪声的谱信息,然后从带噪语谱中将估计的噪声谱减掉以得到对干净语音谱的预测。但是由于噪声的随机性和突变性,使得对噪声的跟踪和估计变得困难。同时在传统的语音增强方法中,考虑到噪声和语音间的相互作用关系很复杂,就需要一些对信号间的独立性假设以及对特征分布的高斯性假设,而这些假设通常是不合理的。首先,传统的语音增强方法会残留很多噪声,甚至是音乐噪声。其次,语音的细节也在较大程度上受到破坏,这主要体现在对低信噪比语音的增强中。再者,极端非平稳噪声一直是传统语音增强方法中比较棘手的地方,因为非平稳噪声的突发性,使得它始终处于被欠估计状态,难以从带噪语音中去掉,可实际声学环境中,各种非平稳噪声又是大概率发生事件。最后,传统的语音增强方法易引入一些非线性失真,使得其对后端的语音识别或语音编码产生不良影响。 近年来,随着深层神经网络(Deep Neural Network, DNN)在语音识别领域的成功应用,给了语音增强任务的研究人员很多启发。DNN的深层非线性结构可以被设计成一个精细的降噪滤波器。同时基于大数据训练,DNN可以充分学习带噪语音和干净语音之间的复杂的非线性关系。另外DNN的训练是离线学习的,如同人一样,它能记住一些噪声的模式,因而可以很好地抑制一些非平稳噪声。而在本论文中,我们提出一种几乎无任何假设的基于DNN的语音增强方法,并针对实际环境中语音增强问题展开了一系列系统性的研究。 首先我们提出了基于DNN的语音增强方法框架,对数功率谱被用作训练DNN模型的特征。DNN则作为映射函数,可以从带噪语音中预测出干净语音。而DNN的训练是分两步进行的,即预训练和有监督训练。预训练是基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)的逐层贪婪式初始化,它可以防止DNN陷入局部最优。而有监督调优可以精准地学习带噪语音和干净语音之间的非线性关系。 其次,DNN是一种有监督的学习模型,凡是有监督的模型都存在如何应对测试集不匹配问题,也即如何提升系统的泛化能力。上百种类型的噪声数据被用来构建大规模训练数据,以此提高DNN模型对未见的测试噪声环境的适应性。同时我们发现,通过此种方法,系统对非平稳噪声有非常强的抑制能力。噪声告知训练也可以进一步地增强模型对测试噪声环境的预见能力。而丢弃(Dropout)法可以防止训练出现过拟合现象。另外,我们还针对DNN作为回归模型出现的过平滑问题,提出了全局方差均衡方法以提升增强的语音的听感。 再者,对测试中的不匹配带噪语音需要做自适应,这个不匹配主要有:能量不匹配,噪声环境不匹配和语言不匹配等方面。因此我们分别在特征层面,提出了均值移位方法,来解决测试语音的特征分布不一致的问题。而对于噪声类型不匹配问题,我们提出了一种动态的噪声告知训练方法,即先用IBM动态地估计每一帧的噪声,然后用来辅助DNN的学习。语言不匹配问题,主要存在于跨语种测试的时候,由于不同语系发音上的差异性导致的丢音问题。我们提出了通过转移学习的方法,来自适应地解决这个问题。 最后,对数功率谱上的最小均方误差是训练DNN的目标函数,但是直接去优化这个目标函数有一定困难的。我们提出了一种间接的目标函数优化方式。考虑到对数功率谱域上的各个维度间是相互独立的,因此我们把梅尔倒频谱参数(Mel Frequency Cepstrum Coefficient, MFCC)融合到系统中来,让DNN去联合优化对数功率谱特征和MFCC特征。利用MFCC的每个参数都包含了频率各个维度间的相关性来限制对对数功率谱的估计,以得到一个在频率各个维度上误差更具有一致性的特征预测。除了MFCC这种连续性信息,我们还可以用一些具有分类特性的元信息来作为对对数功率谱预测的辅助项,比如IBM,它显式地表征了当前时间频率单元是噪声主导的还是语音主导的。另外,经过聚类的噪声编码也用来辅助DNN对对数功率谱特征的学习。 在本论文的最后,我们给出了全文总结,并对该课题的未来进行了展望。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:TN912.35;TP183
【目录】:
【共引文献】
中国期刊全文数据库 前10条
1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
2 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期
3 王晖;颜靖华;李传珍;蔡娟娟;;音频贝叶斯谐波模型中参数的提取[J];中国传媒大学学报(自然科学版);2007年04期
4 周长锋;韩力群;;概率神经网络在文本无关说话人识别中的应用[J];北京工商大学学报(自然科学版);2007年01期
5 魏丽英;;简析语音编码[J];才智;2010年31期
6 由守杰;柏森;曹巍巍;;鲁棒的DCT域音频盲水印算法[J];重庆邮电大学学报(自然科学版);2008年02期
7 肖菲;陈贺新;许万里;赵岩;;模式匹配和过零率检测的音频差错掩盖[J];吉林大学学报(信息科学版);2011年01期
8 李雨昕;;基于余弦过完备原子库的语音信号MP稀疏分解[J];成都电子机械高等专科学校学报;2011年02期
9 刘潇营;郑郁正;李国良;;多类支持向量机在语音识别中的应用[J];成都信息工程学院学报;2010年01期
10 王昌喜;杨先军;徐强;马祖长;孙怡宁;;基于三维加速度传感器的上肢动作识别系统[J];传感技术学报;2010年06期
中国博士学位论文全文数据库 前10条
1 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
2 谢春辉;音频隐藏分析方法研究[D];中国科学技术大学;2011年
3 包桂兰;基于EPG的蒙古语标准音协同发音研究[D];内蒙古大学;2011年
4 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
5 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
6 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
7 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
8 高林;育苗生产线气吸式播种系统智能控制的研究[D];北京林业大学;2008年
9 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年
10 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年
2 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
3 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
4 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
5 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
6 朱妹丽;三种篡改情况下的音频鉴定方法研究[D];大连理工大学;2010年
7 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
8 甄会;欠定盲分离混合矩阵估计方法的研究[D];大连理工大学;2010年
9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年
10 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
本文编号:228334
本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/228334.html