结合卷积平滑耳蜗谱和深度网络的语音增强技术
发布时间:2024-05-20 04:58
为了进一步提高基于深度神经网络的语音增强方法的性能,针对语音声学特征和网络的设计两方面进行优化。引入了一种声学特征卷积平滑耳蜗谱,组合了3个不同平滑度的耳蜗谱,能够有效捕捉语音局部和整体信息。网络结构上,使用深度双向长短时记忆网络可以有效提高网络的学习能力。采用一种后处理差分平均滤波,提高了特征参数在语音增强中的效果。实验结果表明,相比于传统算法和深度学习的方法,增强后的语音不管是清晰度还是质量都有显著提升。
【文章页数】:8 页
【部分图文】:
本文编号:3978993
【文章页数】:8 页
【部分图文】:
图1不同平滑度耳蜗谱增强语音效果
在CSCG特征中,可以看出CG1主要包含了自身时频单元所具有的局部语音信息,而CG2和CG3通过不同平滑度的卷积操作,可以给时频单元提供不同程度的相邻时频单元的信息。CSCG的构成方法,主要是通过固定耳蜗谱CG1,逐步拼接不同平滑度耳蜗谱CG2和CG3,然后观察实验结果,到实验效....
图2CSCG特征图
CSCG特征的可视化图如图2所示,右边是纯净信号的耳蜗谱特征,左边是信噪比5dB、噪声为Babble的带噪语音耳蜗谱特征。可以看出,CG1是正常的耳蜗谱,CG2、CG3是不同平滑度的耳蜗谱。CSCG如果判断该时频单元是语音主导,那么它相邻的时频单元也有很大可能是语音主导,即语音....
图3双向循环神经网络
传统的RNN的缺点就是只能利用以前的语音信息,语音信息的前后具有较强的相关性,所以有必要采用双向循环神经网络(BRNN)来进行增强。BRNN通过使用2个单独的隐藏层在2个方向上处理数据,然后将其转发到同一输出层来实现,结构如图3所示。但是,在进行后向传播中很容易出现“梯度消失和爆....
图4长短时记忆细胞
但是,在进行后向传播中很容易出现“梯度消失和爆炸”的问题,很难让RNN得到良好的训练结果,LSTM很好地缓解了以上问题,通过引入存储单元和一系列门来动态地控制信息流。单个LSTM存储单元如图4所示。LSTM的实现公式:
本文编号:3978993
本文链接:https://www.wllwen.com/kejilunwen/wltx/3978993.html