基于噪声基的语音增强方法及其鲁棒性问题的研究

发布时间:2018-03-23 23:01

  本文选题:语音增强 切入点:噪声基 出处:《中国科学技术大学》2017年硕士论文


【摘要】:在语音通信过程中,由于受到背景噪声和混响的干扰,导致语音的可懂度下降和听感变差。因此在语音通信中,通常需要使用语音增强技术。传统语音增强方法中,基于无监督学习的语音增强方法存在不合理的假设限制了其性能,近年来随着语音数据规模的增大和硬件性能的提高,基于深层神经网络的语音增强方法展现了相对无监督学习方法的极大优势。首先,我们介绍了基于深层神经网络的语音增强方法。但是传统基于深层神经网络的语音增强方法在收集真实噪声的时候,无法在覆盖度方面对噪声进行度量和控制,也就是说,这类方法侧重于数据规模,并没有对数据进行细致的分析。在数据量较大之后,噪声数据通常存在较大的冗余。此外,对于一般实验者来说,获取真实噪声通常需要支付较高的成本。针对以上问题,我们提出了基于噪声基的深层神经网络语音增强方法,并针对噪声鲁棒性问题开展了系统性的研究。其次,考虑到噪声的多样性和紧凑性,我们提出了一种基于噪声基的深层神经网络语音增强方法。因为神经网络的输入和输出及学习均是在帧这一级别进行,这给我们在更小的单元上深入分析噪声的语谱结构带来了可能。因此,首先我们验证了基于深层神经网络的语音增强方法的对噪声学习的原理。通过合理地构造一组完备的具有表征性和区分性的噪声基,在不使用任何真实噪声训练的条件下,基于噪声基的深层神经网络语音增强的方法能够获得与传统使用真实噪声的方法相当的性能,同时证明了这组噪声基和真实噪声存在互补性。再次,为了在有限的训练数据规模的条件下,让每句语音组合到更多的噪声基,同时为了让噪声基覆盖到类型更丰富的真实噪声,我们提出了一种基于噪声基并结合线性组合的噪声信号的构造方法。首先,我们介绍了通过噪声基的线性组合可以覆盖到更多噪声类型的原理。其次,根据这一原理,通过将基于噪声基并结合线性组合的噪声信号直接作为训练噪声,可以进一步提升噪声基的性能。然后,针对窄带噪声这一细分类型进行定制,可以获得比50种真实噪声更好的性能。此外,噪声基比真实噪声训练效率提高了一倍。最后,使用基于渐进学习的语音增强方法和基于多信息源融合的语音增强方法这两种新的框架,在丰富的训练集外的窄带/宽带噪声类型和训练集外的语音上验证了我们的结论,即在不使用任何真实噪声训练的条件下,噪声基在新的框架下仍然能够获得与传统使用真实噪声的方法相当的性能,展现了噪声基对丰富类型集外噪声的泛化能力。
[Abstract]:In the process of speech communication, due to background noise and reverberation, the intelligibility of speech decreases and the sense of hearing becomes worse. Therefore, speech enhancement technology is usually used in speech communication. The performance of speech enhancement based on unsupervised learning is limited by unreasonable assumptions. In recent years, with the increase of the scale of speech data and the improvement of hardware performance, The speech enhancement method based on the deep neural network shows the great advantage of the unsupervised learning method. First of all, We introduce the speech enhancement method based on deep neural network, but the traditional speech enhancement method based on deep neural network can not measure and control the noise in terms of coverage when collecting real noise. This approach focuses on the size of the data and does not provide a detailed analysis of the data. After a large amount of data, the noise data is usually redundant. In addition, for the general experimenter, To obtain real noise, we usually pay a high cost. To solve the above problems, we propose a speech enhancement method based on deep neural networks based on noise basis, and carry out systematic research on noise robustness. Secondly, Considering the diversity and compactness of noise, we propose a speech enhancement method based on noise basis for deep neural networks, because the input, output and learning of neural networks are carried out at the frame level. This makes it possible for us to further analyze the spectral structure of noise on smaller units. First of all, we verify the principle of noise learning in speech enhancement based on deep neural network. By constructing a complete set of representative and discriminative noise bases reasonably, we do not use any real noise training condition. The speech enhancement method of deep neural network based on noise base can achieve the same performance as the traditional method of using real noise. It also proves that the noise base and the real noise are complementary. In order to combine each sentence into more noise bases under the condition of limited training data scale, and to cover the noise base to more types of real noise, We propose a method of constructing noise signals based on noise base and linear combination. Firstly, we introduce the principle that the linear combination of noise bases can cover more noise types. Secondly, according to this principle, The performance of the noise base can be further improved by taking the noise signal based on the noise base and combining the linear combination directly as the training noise. You can get better performance than 50 kinds of real noise. In addition, the noise base is twice as efficient as the real noise training. Finally, Two new frameworks, progressive learning based speech enhancement method and multi-source fusion based speech enhancement method, are used to verify our conclusion on the narrowband / wideband noise types outside the rich training set and the speech outside the training set. That is, without using any real noise training, the noise base can still achieve the same performance as the traditional method of using real noise under the new framework, which shows the generalization ability of the noise base to the off-set noise of rich types.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 李倩,王让定,陈金儿;基于改进阈值的小波域语音增强算法[J];宁波大学学报(理工版);2005年03期

2 胡光锐,虞晓;基于二阶前向结构和信息最大理论的语音增强算法[J];上海交通大学学报;2000年07期

3 姚峰英,张敏;用于语音增强的高频信噪比度量[J];声学学报;2002年05期

4 彭煊,刘金福,王炳锡;基于独立分量分析的语音增强[J];信号处理;2002年05期

5 王金明,张雄伟;一种基于自适应模糊滤波的语音增强方法[J];解放军理工大学学报(自然科学版);2003年01期

6 杨汇军,郑海英,王立红;语音增强方法的研究[J];辽宁工学院学报;2003年05期

7 徐爽,韩芳芳,郑德忠;基于阈值的小波域语音增强新算法[J];传感技术学报;2004年01期

8 孙新德;一种改进的语音增强方法及实现[J];郑州航空工业管理学院学报(社会科学版);2005年04期

9 钱国青;赵鹤鸣;;基于改进谱减算法的语音增强新方法[J];计算机工程与应用;2005年35期

10 王晶,傅丰林,张运伟;语音增强算法综述[J];声学与电子工程;2005年01期

相关会议论文 前10条

1 陈凯;俞蒙槐;胡上序;付强;;语音增强系统性能评测方法综述[A];第四届全国人机语音通讯学术会议论文集[C];1996年

2 王建波;林本浩;田春明;刘睿;;语音增强及其相关技术研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

3 徐舒;孙洪;;基于融合迭代的语音增强方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

4 牛刚;任新智;吴国庆;;谐波能量汇集度在语音增强中的应用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

5 国雁萌;;一种极低信噪比条件下的语音增强方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

6 江峰;李晓东;;适用于抑制非平稳背景噪声的语音增强算法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年

7 阎兆立;杜利民;;维纳后滤波语音增强算法研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年

8 刘淑华;胡强;覃团发;万海斌;;语音增强算法的研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

9 魏臻;张景达;陆阳;;嵌入式系统中语音增强改进算法的研究[A];2007'中国仪器仪表与测控技术交流大会论文集(一)[C];2007年

10 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

相关博士学位论文 前10条

1 张龙;有监督学习条件下的单通道语音增强算法研究[D];中国科学技术大学;2017年

2 欧世峰;变换域语音增强算法的研究[D];吉林大学;2008年

3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年

4 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年

5 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年

6 姚峰英;语音增强系统的研究与实现[D];中国科学院上海冶金研究所;2001年

7 夏丙寅;面向移动通信的单通道语音增强方法研究[D];北京工业大学;2014年

8 徐勇;基于深层神经网络的语音增强方法研究[D];中国科学技术大学;2015年

9 陶智;低信噪比环境下语音增强的研究[D];苏州大学;2011年

10 王娜;基于小波变换与约束方差噪声谱估计的语音增强算法研究[D];燕山大学;2011年

相关硕士学位论文 前10条

1 肖佩霖;双通道语音增强系统设计与实现[D];哈尔滨工业大学;2011年

2 陈成斌;针对于家居环境的语音增强系统的研究与开发[D];华南理工大学;2015年

3 魏有权;基于噪声估计的语音增强算法研究[D];昆明理工大学;2015年

4 胡勇;麦克风阵列语音增强算法研究[D];电子科技大学;2014年

5 曹后斌;有色背景噪声环境下语音增强系统的设计与实现[D];电子科技大学;2014年

6 马小惠;阵列语音增强在车载环境中的应用[D];大连理工大学;2015年

7 李达;无线声学传感器网络中分布式语音增强方法研究[D];大连理工大学;2015年

8 高珍珍;基于梅尔频谱域HMM的语音增强方法研究[D];北京工业大学;2015年

9 宋环宇;全数字助听器语音增强算法研究[D];哈尔滨工业大学;2014年

10 王永杰;基于麦克风阵列的语音增强算法研究[D];西安电子科技大学;2014年



本文编号:1655574

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1655574.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户eaa85***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com