心理声学研究及其在语音增强上的应用
本文选题:波动强度 切入点:心理声学掩蔽 出处:《南京师范大学》2017年硕士论文 论文类型:学位论文
【摘要】:心理声学主要研究人耳对声音信号的处理过程,建立声音的物理性质与其在听觉产生的主观感觉之间的联系,从而得到相应的心理声学模型,最终在科学研究和工程实践中加以应用。本文主要研究心理声学的掩蔽效应、频带划分以及参量模型,并给出了一种新的计算心理声学波动强度的参量模型。在此基础上,本文将心理声学掩蔽效应以及频带划分应用到了单通道语音增强上,给出了两种基于心理声学的单通道语音增强改进算法:基于心理声学掩蔽的单通道语音增强改进算法以及基于心理声学等矩形带宽(ERB)尺度划分的多子带谱减改进算法。心理声学波动强度与粗糙度一样,是一种基本的心理声学听觉感知。一个重要的区别在于波动强度反映了声音信号更慢的振幅波动。本文给出了一种新的基于ERB的波动强度计算模型。通过在ERB尺度上划分75个滤波通道,并且将每个通道的广义调制度(GMD)加权、滤波以及求和得到最终的波动强度值。新算法给出了一种新的将每个ERB中的GMD转变成特性波动强度的方式。另外,新算法给出了用ERB尺度替代Bark尺度。比较基于ERB尺度划分的新算法和基于Bark尺度划分的新算法可以发现,基于ERB尺度划分的新算法降低RMSE值到73%并且提高相关系数值到17%。另外,本文还给出了关于为何在最终计算特性波动强度时需要加权的原因。实验仿真结果表明,与已有的Zwicker波动强度模型[1]相比较,本文的波动强度模型能够降低RMSE值超过90%并且提高相关系数值高达23%。因此,本文的波动强度模型所计算得到的结果与主观测试结果更加吻合。在心理声学理论研究的基础上,本文给出了基于听觉掩蔽效应和频带划分的两种单通道语音增强改进算法。本文首先实现了 Virag提出的基于心理声学掩蔽的单通道语音增强算法[2],然后通过改进Virag算法中的频域掩蔽模型并引入时域掩蔽模型,得到改进后的算法。在改进的算法中,根据频域掩蔽模型和时域掩蔽模型计算得到噪声掩蔽阈,进而调节谱减参数以得到噪声降低、语音失真和残留音乐噪声这三者在人耳听觉上的最好折中。另外,本文还给出了一个基于心理声学ERB尺度划分多子带谱减改进算法,即根据ERB尺度先将带噪信号的频谱划分成多个子带,然后在不同的子带中分别进行单通道语音增强算法处理。仿真结果表明,改进的算法在客观评价指标和主观听音测试方面均优于用于比较的单通道语音增强算法。
[Abstract]:Psychoacoustics mainly studies the processing process of sound signal in human ear, and establishes the relationship between the physical properties of sound and the subjective feeling produced by hearing, and obtains the corresponding psychoacoustical model. Finally, it is applied in scientific research and engineering practice. This paper mainly studies the masking effect, frequency band division and parametric model of psychoacoustics, and gives a new parametric model to calculate the intensity of psychoacoustics fluctuation. In this paper, the psychoacoustic masking effect and band division are applied to single channel speech enhancement. In this paper, we present two improved single-channel speech enhancement algorithms based on psychoacoustics: an improved speech enhancement algorithm based on psychoacoustics masking and an improved multi-subband spectral subtraction based on the scale partition of rectangular bandwidth (ERB) of psychoacoustics. Algorithm. The intensity of psychoacoustic fluctuation is the same as roughness. An important difference is that the wave intensity reflects the slower amplitude fluctuation of sound signal. This paper presents a new calculation model of wave intensity based on ERB. Dividing 75 filtering channels in degrees, And the generalized modulation scheme of each channel is weighted, filtered and summed to obtain the final wave intensity value. The new algorithm gives a new way to transform the GMD in each ERB into characteristic fluctuation intensity. Compared with the new algorithm based on ERB scale and Bark scale partition, it is found that the new algorithm based on ERB scale partition reduces RMSE value to 73% and increases correlation coefficient value to 17%. In this paper, the reasons why we need weighting in the final calculation of characteristic fluctuation intensity are also given. The experimental results show that compared with the existing Zwicker wave intensity model [1], The wave intensity model in this paper can reduce the RMSE value by more than 90% and increase the correlation coefficient by 23. Therefore, the results calculated by the volatility intensity model in this paper are in better agreement with the subjective test results. In this paper, we present two improved single-channel speech enhancement algorithms based on auditory masking effect and band division. Firstly, we implement a single channel speech enhancement algorithm based on psychoacoustic masking proposed by Virag [2]. The frequency domain masking model in Virag algorithm and the time domain masking model are introduced. In the improved algorithm, the noise masking threshold is calculated according to the frequency-domain masking model and the time-domain masking model, and then the spectral subtraction parameters are adjusted to obtain the noise reduction. Speech distortion and residual music noise are the best compromise in human hearing. In addition, an improved algorithm based on psychoacoustics ERB scale is presented to subtract the multi-subband spectrum. According to the ERB scale, the spectrum of the noisy signal is divided into several sub-bands, and then the single-channel speech enhancement algorithm is processed in different sub-bands. The simulation results show that, The improved algorithm is superior to the single channel speech enhancement algorithm in objective evaluation index and subjective audition test.
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 李倩,王让定,陈金儿;基于改进阈值的小波域语音增强算法[J];宁波大学学报(理工版);2005年03期
2 胡光锐,虞晓;基于二阶前向结构和信息最大理论的语音增强算法[J];上海交通大学学报;2000年07期
3 姚峰英,张敏;用于语音增强的高频信噪比度量[J];声学学报;2002年05期
4 彭煊,刘金福,王炳锡;基于独立分量分析的语音增强[J];信号处理;2002年05期
5 王金明,张雄伟;一种基于自适应模糊滤波的语音增强方法[J];解放军理工大学学报(自然科学版);2003年01期
6 杨汇军,郑海英,王立红;语音增强方法的研究[J];辽宁工学院学报;2003年05期
7 徐爽,韩芳芳,郑德忠;基于阈值的小波域语音增强新算法[J];传感技术学报;2004年01期
8 孙新德;一种改进的语音增强方法及实现[J];郑州航空工业管理学院学报(社会科学版);2005年04期
9 钱国青;赵鹤鸣;;基于改进谱减算法的语音增强新方法[J];计算机工程与应用;2005年35期
10 王晶,傅丰林,张运伟;语音增强算法综述[J];声学与电子工程;2005年01期
相关会议论文 前10条
1 陈凯;俞蒙槐;胡上序;付强;;语音增强系统性能评测方法综述[A];第四届全国人机语音通讯学术会议论文集[C];1996年
2 王建波;林本浩;田春明;刘睿;;语音增强及其相关技术研究[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
3 徐舒;孙洪;;基于融合迭代的语音增强方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 牛刚;任新智;吴国庆;;谐波能量汇集度在语音增强中的应用[A];第六届全国信息获取与处理学术会议论文集(2)[C];2008年
5 国雁萌;;一种极低信噪比条件下的语音增强方法[A];第六届全国人机语音通讯学术会议论文集[C];2001年
6 江峰;李晓东;;适用于抑制非平稳背景噪声的语音增强算法[A];中国声学学会2003年青年学术会议[CYCA'03]论文集[C];2003年
7 阎兆立;杜利民;;维纳后滤波语音增强算法研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
8 刘淑华;胡强;覃团发;万海斌;;语音增强算法的研究[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
9 魏臻;张景达;陆阳;;嵌入式系统中语音增强改进算法的研究[A];2007'中国仪器仪表与测控技术交流大会论文集(一)[C];2007年
10 杨威明;;基于阈值的小波变换语音增强方法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
相关博士学位论文 前10条
1 张龙;有监督学习条件下的单通道语音增强算法研究[D];中国科学技术大学;2017年
2 欧世峰;变换域语音增强算法的研究[D];吉林大学;2008年
3 尹伟;基于模型的语音增强方法及质量评估研究[D];武汉大学;2009年
4 王海艳;基于统计模型的语音增强算法研究[D];吉林大学;2011年
5 方瑜;语音增强相关问题研究[D];北京邮电大学;2012年
6 姚峰英;语音增强系统的研究与实现[D];中国科学院上海冶金研究所;2001年
7 夏丙寅;面向移动通信的单通道语音增强方法研究[D];北京工业大学;2014年
8 徐勇;基于深层神经网络的语音增强方法研究[D];中国科学技术大学;2015年
9 陶智;低信噪比环境下语音增强的研究[D];苏州大学;2011年
10 王娜;基于小波变换与约束方差噪声谱估计的语音增强算法研究[D];燕山大学;2011年
相关硕士学位论文 前10条
1 周挺挺;心理声学研究及其在语音增强上的应用[D];南京师范大学;2017年
2 肖佩霖;双通道语音增强系统设计与实现[D];哈尔滨工业大学;2011年
3 陈成斌;针对于家居环境的语音增强系统的研究与开发[D];华南理工大学;2015年
4 魏有权;基于噪声估计的语音增强算法研究[D];昆明理工大学;2015年
5 胡勇;麦克风阵列语音增强算法研究[D];电子科技大学;2014年
6 曹后斌;有色背景噪声环境下语音增强系统的设计与实现[D];电子科技大学;2014年
7 马小惠;阵列语音增强在车载环境中的应用[D];大连理工大学;2015年
8 李达;无线声学传感器网络中分布式语音增强方法研究[D];大连理工大学;2015年
9 高珍珍;基于梅尔频谱域HMM的语音增强方法研究[D];北京工业大学;2015年
10 宋环宇;全数字助听器语音增强算法研究[D];哈尔滨工业大学;2014年
,本文编号:1565172
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1565172.html