有监督学习条件下的单通道语音增强算法研究

发布时间:2018-04-25 11:38

  本文选题:单通道语音增强 + 有监督学习条件 ; 参考:《中国科学技术大学》2017年博士论文


【摘要】:语言是实现人与人甚至机器之间便捷交流的信息工具,而语音信号是实现这种工具功能的介质。然而在现实生活生产中,语音信号经常会被各种类型的干扰噪声甚至是自身的反射信号所污染。受污染的语音,由于破坏了信号的结构、增添了干扰成分,就一方面会导致人类主观听觉感受质量的下降甚至疲劳和厌恶,另一方面严重影响语音内容的可懂度。语音增强所要实现的就是要抑制和消除接收信号中的干扰、噪声以及反射成分,恢复出干净的语音信号,从而提高语音的听觉质量和可懂度。可以根据污染噪声源的不同,将语音增强大体分为语音解混响、分离和降噪等三个问题,分别对应着污染源为自身反射产生的干扰成分、其他说话人的干扰语音以及环境中的干扰噪声。一般根据算法所使用通道麦克风数目可以将语音增强算法又大致分为单通道和多通道两大类。显然,单通道增强算法是语音增强的基础和基本方式,也常常可以和多通道技术结合,所以拥有广泛的研究基础和非常重要的研究价值。近些年来互联网尤其是移动互联网和智能设备的快速普及,使得语音数据的收集越来越方便和大量,这为各种训练学习类算法的实现提供了丰富的数据原料。基于此,也由于传统语音解混响和降噪方法的局限性和对非平稳干扰噪声的处理能力有限,本文研究了有监督学习条件下的单通道语音增强技术。结合近些年来兴起并迅速发展的字典学习和稀疏表示理论和方法,本文针对单通道语音降噪以及解混响和降噪问题进行了研究,提出了三种新的算法应用于语音增强中。其中主要的工作和创新点列举如下:首先,提出了基于区分性联合字典学习的单通道语音降噪算法。针对字典学习和稀疏表示类算法运用于语音降噪过程中遇到的两个重要问题:一、如何提高学习得到的语音和噪声字典之间的区分性;二、如何保持训练学习和增强测试两个阶段的稀疏表示的一致性。创新性地提出了结合约束交叉稀疏表示误差项和不同字典原子间相关性项的区分性联合字典优化训练方法,促进不同字典间的区分和判别力,从而提高稀疏表示的准确性。此外,通过训练阶段对混合信号的利用,统一了训练学习和增强测试两阶段的稀疏表示方式,保持了一致性。通过这两点的改进本文实现了更好的语音增强算法。其次,针对一般字典学习和稀疏表示类单通道降噪算法只是利用了信号时频幅度谱信息,没有充分挖掘出带噪信号中语音和噪声信号的其他联系。本文提出了比率掩码和掩码字典的概念,主要是充分利用带噪信号中的时频幅度谱中隐含的语音和噪声的比率掩码和近似为1的条件,这是由语音和噪声在时频谱域上的稀疏性近似保证的。然后,基于字典学习和稀疏表示方法,提出了联合语音时频幅度谱和比率掩码信息的联合字典学习算法,接着利用训练得到的信号字典和掩码字典组成的复合字典对带噪信号和混合比率掩码进行联合稀疏表示得到稀疏表示系数。将得到的稀疏表示系数结合对应的信号字典和掩码字典构建不同的掩码滤波器完成最终的语音降噪。实验结果验证了算法的有效性。最后,本文研究了单通道语音解混响和降噪问题,指出了之前的基于非负矩阵分解或者非负卷积模型的单通道语音解混响和降噪算法存在对房间冲激响应比较长情况下的收敛性和计算复杂度问题,创造性地提出了一种基于两步序贯的非负矩阵分解模型的语音解混响和降噪算法。该算法的关键之处是将一个较长的房间冲激响应分解为两个较短的冲激响应的卷积,然后实现分步序贯处理两个冲激响应下模型下的参数迭代更新求解问题。最后,利用求得的参数设计不同的滤波器实现语音增强。此外,本文借鉴集成学习和融合算法优势,设计了两种不同的融合算法实现更好的增强效果。实验结果验证了算法有效性。
[Abstract]:Language is an information tool for realizing convenient communication between people and even machines, and voice signals are the medium to realize the function of this tool. However, in real life production, voice signals are often polluted by various types of noise and even their own reflection signals. Adding interference components, on the one hand, will lead to a decline in the quality of human subjective auditory sensation, even fatigue and disgust. On the other hand, it seriously affects the intelligibility of the speech content. The speech enhancement is to suppress and eliminate interference, noise and reflection in the received signal, and restore clean voice signals, thus improving the language. According to the different sources of pollution noise, the speech enhancement can be divided into three problems, such as speech reverberation, separation and noise reduction, which correspond to the interference components produced by the source of the pollution, the interfering speech of the other speakers and the noise in the environment. The number of microphone can be roughly divided into two categories: single channel and multi channel. Obviously, single channel enhancement algorithm is the basic and basic way of speech enhancement. It also can often be combined with multi-channel technology, so it has a wide research base and very important research value. In recent years, the Internet is especially mobile and mutual. The rapid popularization of networking and intelligent equipment makes the collection of voice data more and more convenient and large, which provides rich data materials for the implementation of various training learning algorithms. Based on this, the limitations of the traditional speech reverberation and noise reduction methods and the limited ability to deal with non-stationary interference noise are also studied in this paper. Single channel speech enhancement technology under the condition of governor learning. Combined with the theory and method of dictionary learning and sparse representation which has developed rapidly in recent years, this paper studies the noise reduction of single channel and the problem of solution reverberation and noise reduction. Three new algorithms are applied to speech enhancement. The main work and innovation are the main work and the innovation point. The following are listed as follows: first, a single channel speech denoising algorithm based on discriminative joint dictionary learning is proposed. Two important problems encountered in the process of speech denoising are used in dictionary learning and sparse representation. One, how to improve the distinction between speech and noise dictionaries; and two, how to keep training and learn and increase. The consistency of the sparse representation of the two phases is tested. An innovative approach is put forward to optimize the training method of the discriminative joint dictionary combining the constraint cross sparse representation of the error terms and the correlation items between different dictionaries to promote the distinction and discrimination among different dictionaries, thus improving the accuracy of the sparse representation. With the use of the combined signal, the sparse representation of the two stages of training and testing is unified, and the consistency is maintained. Through the improvement of these two points, a better speech enhancement algorithm is realized. Secondly, the single channel noise reduction algorithm for the general dictionary learning and the sparse representation class only uses the signal time frequency amplitude spectrum information, which is not sufficient. The concept of ratio mask and mask dictionary is proposed in this paper, which is mainly used to make full use of the ratio mask and approximate 1 of the implied speech and noise in the time-frequency amplitude spectrum of the noisy signal. This is the approximate guarantee of the sparsity of the speech and noise on the time-frequency domain. Then, based on dictionary learning and sparse representation, a joint dictionary learning algorithm for joint speech frequency amplitude spectrum and ratio mask information is proposed. Then, a composite dictionary consisting of a trained signal dictionary and a mask dictionary is used to sparse representation coefficients of the band noise signal and mixed ratio mask. The sparse representation coefficients are combined with the corresponding signal dictionary and the mask dictionary to construct different mask filters to complete the final speech noise reduction. The experimental results verify the effectiveness of the algorithm. Finally, this paper studies the problem of single channel speech solution reverberation and noise reduction, and points out the previous based on the non negative matrix decomposition or the non negative convolution model. The single channel speech solution reverberation and noise reduction algorithm has the convergence and computational complexity of the room impulse response long, and creatively proposes a speech solution reverberation and noise reduction algorithm based on the two step sequential nonnegative matrix decomposition model. The key point of this algorithm is to decompose a longer room impulse response into the algorithm. Two short impulse response convolutions, and then step sequential processing to solve the problem of iterative updating of the parameters under the two impulse response model. Finally, using the obtained parameters to design different filters to achieve speech enhancement. In addition, this paper draws on the advantages of integrated learning and fusion algorithm, and designs two different fusion algorithms. The experimental results verify the effectiveness of the algorithm.

【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 李倩,王让定,陈金儿;基于改进阈值的小波域语音增强算法[J];宁波大学学报(理工版);2005年03期

2 胡光锐,虞晓;基于二阶前向结构和信息最大理论的语音增强算法[J];上海交通大学学报;2000年07期

3 姚峰英,张敏;用于语音增强的高频信噪比度量[J];声学学报;2002年05期

4 彭煊,刘金福,王炳锡;基于独立分量分析的语音增强[J];信号处理;2002年05期

5 王金明,张雄伟;一种基于自适应模糊滤波的语音增强方法[J];解放军理工大学学报(自然科学版);2003年01期

6 杨汇军,郑海英,王立红;语音增强方法的研究[J];辽宁工学院学报;2003年05期

7 徐爽,韩芳芳,郑德忠;基于阈值的小波域语音增强新算法[J];传感技术学报;2004年01期

8 孙新德;一种改进的语音增强方法及实现[J];郑州航空工业管理学院学报(社会科学版);2005年04期

9 钱国青;赵鹤鸣;;基于改进谱减算法的语音增强新方法[J];计算机工程与应用;2005年35期

10 王晶,傅丰林,张运伟;语音增强算法综述[J];声学与电子工程;2005年01期

相关会议论文 前10条

1 陈凯;俞蒙槐;胡上序;付强;;语音增强系统性能评测方法综述[A];第四届全国人机语音通讯学术会议论文集[C];1996年

2 王建波;林本浩;田春明;刘睿;;语音增强及其相关技术研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年

3 徐舒;孙洪;;基于融合迭代的语音增强方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年

4 牛刚;任新智;吴国庆;;谐波能量汇集度在语音增强中的应用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年

5 国雁萌;;一种极低信噪比条件下的语音增强方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年

6 江峰;李晓东;;适用于抑制非平稳背景噪声的语音增强算法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年

7 阎兆立;杜利民;;维纳后滤波语音增强算法研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年

8 刘淑华;胡强;覃团发;万海斌;;语音增强算法的研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年

9 魏臻;张景达;陆阳;;嵌入式系统中语音增强改进算法的研究[A];2007'中国仪器仪表与测控技术交流大会论文集(一)[C];2007年

10 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年

相关博士学位论文 前10条

1 张龙;有监督学习条件下的单通道语音增强算法研究[D];中国科学技术大学;2017年

2 欧世峰;变换域语音增强算法的研究[D];吉林大学;2008年

3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年

4 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年

5 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年

6 姚峰英;语音增强系统的研究与实现[D];中国科学院上海冶金研究所;2001年

7 夏丙寅;面向移动通信的单通道语音增强方法研究[D];北京工业大学;2014年

8 徐勇;基于深层神经网络的语音增强方法研究[D];中国科学技术大学;2015年

9 陶智;低信噪比环境下语音增强的研究[D];苏州大学;2011年

10 王娜;基于小波变换与约束方差噪声谱估计的语音增强算法研究[D];燕山大学;2011年

相关硕士学位论文 前10条

1 肖佩霖;双通道语音增强系统设计与实现[D];哈尔滨工业大学;2011年

2 陈成斌;针对于家居环境的语音增强系统的研究与开发[D];华南理工大学;2015年

3 魏有权;基于噪声估计的语音增强算法研究[D];昆明理工大学;2015年

4 胡勇;麦克风阵列语音增强算法研究[D];电子科技大学;2014年

5 曹后斌;有色背景噪声环境下语音增强系统的设计与实现[D];电子科技大学;2014年

6 马小惠;阵列语音增强在车载环境中的应用[D];大连理工大学;2015年

7 李达;无线声学传感器网络中分布式语音增强方法研究[D];大连理工大学;2015年

8 高珍珍;基于梅尔频谱域HMM的语音增强方法研究[D];北京工业大学;2015年

9 宋环宇;全数字助听器语音增强算法研究[D];哈尔滨工业大学;2014年

10 王永杰;基于麦克风阵列的语音增强算法研究[D];西安电子科技大学;2014年



本文编号:1801149

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1801149.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f883e***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com