面向移动通信的单通道语音增强方法研究
发布时间:2019-08-04 11:21
【摘要】:近年来,单通道语音增强技术在移动语音通信系统中获得了广泛的应用,但在复杂噪声场景中其性能往往不能达到实际应用的需求。 本文从噪声估计方法的改进、现有语音增强技术的融合、人工神经网络在语音增强中的应用,以及应用于移动通信系统网络设备中的压缩域语音增强方法等方面进行研究,提出了几种适用于移动通信系统的单通道语音增强方法。 本文的研究成果可以总结为以下几个方面: 1.为提高噪声估计方法对噪声强度突变的跟踪能力,本文在最小值控制递归平均方法基础上,提出了一种噪声估计加速方法。首先检测含噪语音功率谱的突变情况,检测到突变后设定具有自适应长度的拖尾段,并在拖尾段中利用多参数话音激活检测方法判断语音的存在性,而后结合噪声估计与最小值比例参数,判定是否对噪声估计进行强制更新。ITU-T G.160标准下的性能测试结果表明,噪声估计加速方法不会对噪声强度平稳时的性能产生影响,但噪声强度突变时的收敛时间得到了显著的降低,同时有效消除了收敛过程中的音乐噪声现象。 2.为结合不同语音增强算法的优势,本文提出了一种基于小波融合的语音增强方法。该方法首先利用双正交小波包变换将含噪语音分解为若干个子带;而后分别使用加权欧氏失真测度幅度谱估计器和过减型小波阈值方法在各子带中进行增强;进一步,利用基于互相关和先验信噪比的融合准则,将两种方法所得输出小波系数结合起来;最后利用逆小波包变换得到增强语音。利用ITU-T G.160标准进行性能测试,结果表明,与参考方法相比,所提方法可以获得更好的客观语音质量。 3.通过在传统的去噪自动编码器(Denoising Auto-encoder,DA)中引入加权重建损失函数,本文提出了一种加权去噪自动编码器(Weighted DenoisingAuto-encoder,WDA)模型,并用于描述纯净语音和含噪语音功率谱的关系。在此基础上,提出一种基于WDA和噪声分类的维纳滤波语音增强方法。所提方法首先利用WDA模型估计纯净语音的功率谱,而后利用后验信噪比控制的递归平均方法估计先验信噪比,最终使用频域维纳滤波方法获得增强语音。另外,引入一种基于高斯混合模型的在线噪声分类方法,改善所提方法在不同噪声环境中的适用性。基于ITU-T G.160的性能测试结果表明,与传统的频域维纳滤波方法相比,所提方法在训练集内和集外噪声环境中都可以获得更好的客观语音质量。 4.基于ITU-T G.722.2编码器的比特流,通过调整码书增益参数,本文提出了一种兼容非连续传输模式和帧擦除情况的压缩域语音增强方法。在非DTX模式,首先在压缩域进行话音活动性检测和背景噪声分类;而后利用代数码书能量估计噪声强度,并根据噪声类型估计信噪比;进而对自适应码书和代数码书增益进行联合调整,并重新量化编码。在非连续传输模式的非语音帧中,对对数帧能量进行衰减以消除噪声的影响,同时保持谱包络参数不变。在帧擦除发生时,对恢复得到的代数码书增益进行指数衰减,重建代数码书矢量,并对所有编码参数进行重新编码。基于ITU-T G.160标准的性能测试结果表明,所提方法可以在低复杂度前提下,获得优于现有压缩域语音增强方法的噪声衰减、信噪比提高和主客观语音质量。
【图文】:
时间 (s)0 1 2 3 4 5 6c)图 2-11 噪声强度突变时的语谱图对比a) 含噪语音 b) 参考算法增强语音 c) 所提算法增强语音gure 2-11 Spectrogram comparison when the sudden change of noise intensity occursy speech b) enhanced speech of reference method c) enhanced speech of proposed me 2-11给出了白噪声情况下含噪语音、参考算法增强语音以及所提算的语谱图对比。噪声强度在 3.4s左右发生突然增大的情况,突变前的8dB,突变后的信噪比为 6dB。可以看到,参考算法在噪声突变后跟慢,收敛过程中的残留噪声不平稳,,音乐噪声明显,而所提算法在突可快速的跟踪噪声变化,且收敛后残留噪声平稳,语音质量较好。外,本文采用对数谱失真(Logarithmic Spectral Distortion,LSD)[98]度突变情况下,语音质量的客观评价指标。测试中使用的含噪语音是和包含强度突变的噪声信号混合得到,突变前含噪语音的信噪比为 18信噪比为 6dB。LSD指标在噪声强度突变后的语音段中计算得到。2 种噪声下的LSD测试结果如表 2-5所示。
图 5-8 基于浊音度的 VAD 示例a) 含噪语音波形 b) 平滑浊音度及其阈值 c) VAD 结果Figure 5-8 An example of voicing factor based VAD methodeform of noisy speech b) smoothed voicing factor and the threshold c) VA提出可以利用噪声段 LPC 谱包络中低频部分所占的能量比区分为全带分布噪声(例如白噪声、工厂噪声等),以及低频分声等)。AD 结果为 0,即语音不存在的帧中,计算 NFFT= 256 点的 LP段 Nlow= 5 个频点的能量占总能量的比例,如下所示:10_ / 20( )( )lowFFTNlpcien low NlpciE iRE i low——谱包络低频能量比参数;——使用含噪语音 ISF 参数计算得到的 LPC 谱包络。
【学位授予单位】:北京工业大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TN912.3
【图文】:
时间 (s)0 1 2 3 4 5 6c)图 2-11 噪声强度突变时的语谱图对比a) 含噪语音 b) 参考算法增强语音 c) 所提算法增强语音gure 2-11 Spectrogram comparison when the sudden change of noise intensity occursy speech b) enhanced speech of reference method c) enhanced speech of proposed me 2-11给出了白噪声情况下含噪语音、参考算法增强语音以及所提算的语谱图对比。噪声强度在 3.4s左右发生突然增大的情况,突变前的8dB,突变后的信噪比为 6dB。可以看到,参考算法在噪声突变后跟慢,收敛过程中的残留噪声不平稳,,音乐噪声明显,而所提算法在突可快速的跟踪噪声变化,且收敛后残留噪声平稳,语音质量较好。外,本文采用对数谱失真(Logarithmic Spectral Distortion,LSD)[98]度突变情况下,语音质量的客观评价指标。测试中使用的含噪语音是和包含强度突变的噪声信号混合得到,突变前含噪语音的信噪比为 18信噪比为 6dB。LSD指标在噪声强度突变后的语音段中计算得到。2 种噪声下的LSD测试结果如表 2-5所示。
图 5-8 基于浊音度的 VAD 示例a) 含噪语音波形 b) 平滑浊音度及其阈值 c) VAD 结果Figure 5-8 An example of voicing factor based VAD methodeform of noisy speech b) smoothed voicing factor and the threshold c) VA提出可以利用噪声段 LPC 谱包络中低频部分所占的能量比区分为全带分布噪声(例如白噪声、工厂噪声等),以及低频分声等)。AD 结果为 0,即语音不存在的帧中,计算 NFFT= 256 点的 LP段 Nlow= 5 个频点的能量占总能量的比例,如下所示:10_ / 20( )( )lowFFTNlpcien low NlpciE iRE i low——谱包络低频能量比参数;——使用含噪语音 ISF 参数计算得到的 LPC 谱包络。
【学位授予单位】:北京工业大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TN912.3
【参考文献】
相关期刊论文 前10条
1 曲天书,戴逸松,王树勋;基于SURE无偏估计的自适应小波阈值去噪[J];电子学报;2002年02期
2 欧世峰;赵晓晖;;基于帧间相关性的最大后验估计语音增强算法[J];电子学报;2007年10期
3 戴悟僧;小波变换的频响特性及其在语音去噪中的应用[J];数据采集与处理;2000年01期
4 高亚召;李亚安;徐德民;;语音增强中小波收缩参数选择分析[J];数据采集与处理;2009年03期
5 曹斌芳;李建奇;;基于自适应仿生小波变换的语音增强方法[J];数据采集与处理;2010年06期
6 李冲泥,胡光锐;一种改进的子波域语音增强方法[J];通信学报;1999年04期
7 金乃高;殷福亮;王冬霞;陈U
本文编号:2522908
本文链接:https://www.wllwen.com/kejilunwen/wltx/2522908.html