联合深度编解码网络和时频掩蔽估计的单通道语音增强
发布时间:2021-11-08 21:00
提出了一种联合深度编解码神经网络和时频掩蔽估计的语音增强方法。该方法利用深度编解码网络估计时频掩蔽表示,并联合带噪语音的幅度谱学习带噪语音与纯净语音幅度谱之间的非线性映射关系。深度编解码网络采用卷积-反卷积网络结构。在编码端,利用卷积网络的局部感知特性,对带噪语音的时频域结构特征进行建模,提取语音特征,同时抑制背景噪声。在解码端,利用编码端提取到的语音特征逐层恢复局部细节信息并重构语音信号。同时,在编解码端对应层之间引入跳跃连接,以减少由于池化和全连接操作导致的低层细节信息丢失的问题。在TIMIT语音库和不完全匹配噪声集下进行仿真实验,实验结果表明,该方法可以有效抑制噪声,且能较好地恢复出语音细节成分。
【文章来源】:声学学报. 2020,45(03)北大核心EICSCD
【文章页数】:9 页
【部分图文】:
图1本文所提语音增强方法结构图??
时文华等:联合深度编解码网络和时频掩蔽估计的单通道语音増强??3D5??3期??的语咅-质最?在其余几种噪声类型下,经过Skip连接??的諫增强方法要略高千无Skip连接的语音增强??方法:,??图4可以看出,基宁神经两络的语咅增强方法可??以明M降低増强诗语音的谱失真。除了在HF?Ghaa-??nel噪声环境下,经过GNN方法增强处理带来的语??音失真要低于经过传统DKS方法增强后的语咅。??而引入Skip连接的CKS带来的谱失真要略高子无??Skip连接的GMBT语咅増强方法???图5所沄的不同方法在不同噪声类型下的STOI??得分均值可以看出,带噪语咅修号经基于HMF的语??音増强方法处理后,会降低语咅的可懂度,而基于神??经网络的增强方法在不同噪声类型下均能普遍提高??语音的可懂度。虽然引入Skip连接后的带来??的谱失真要略高f无Skip连接的GNN语杏增强方??法,但同时会带来可懂度的提升。??为了从频谱细节倩息中观察各种降噪方法对带??噪语音中噪声抑制和语音成分恢复的程度,图6给??出了一段被5?<ffl?Eketory噪声f#染的语音经不同有??监督方法增强后的语谱图,图6(e)可以看出,基*宁??的増强方法对噪声的抑制水平要明ffi低宁基子??D丽的方法,图6(d)可以看出,棊子DSM的方法??能够较好地抑制噪声,恢复出低频部分语t的结构??特征,但在高频部分,还是存在着结构信息的丢失..??3.0??1.0??Babble?White?Factory?Pink?FI6?HF?Channel??图3不同增强方法在不同噪声类型下的PESQ得分均值??3.0??|Noisy?
【参考文献】:
期刊论文
[1]利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 袁文浩,孙文珠,夏斌,欧世峰. 自动化学报. 2018(04)
[2]用于无监督语音降噪的听觉感知鲁棒主成分分析法[J]. 闵刚,邹霞,韩伟,张雄伟,谭薇. 声学学报. 2017(02)
[3]稀疏低秩噪声模型下无监督实时单通道语音增强算法[J]. 李轶南,张雄伟,贾冲,陈亮,曾理. 声学学报. 2015(04)
[4]听觉场景分析的研究进展[J]. 吴镇扬,张子瑜,李想,赵力. 电路与系统学报. 2001(02)
本文编号:3484157
【文章来源】:声学学报. 2020,45(03)北大核心EICSCD
【文章页数】:9 页
【部分图文】:
图1本文所提语音增强方法结构图??
时文华等:联合深度编解码网络和时频掩蔽估计的单通道语音増强??3D5??3期??的语咅-质最?在其余几种噪声类型下,经过Skip连接??的諫增强方法要略高千无Skip连接的语音增强??方法:,??图4可以看出,基宁神经两络的语咅增强方法可??以明M降低増强诗语音的谱失真。除了在HF?Ghaa-??nel噪声环境下,经过GNN方法增强处理带来的语??音失真要低于经过传统DKS方法增强后的语咅。??而引入Skip连接的CKS带来的谱失真要略高子无??Skip连接的GMBT语咅増强方法???图5所沄的不同方法在不同噪声类型下的STOI??得分均值可以看出,带噪语咅修号经基于HMF的语??音増强方法处理后,会降低语咅的可懂度,而基于神??经网络的增强方法在不同噪声类型下均能普遍提高??语音的可懂度。虽然引入Skip连接后的带来??的谱失真要略高f无Skip连接的GNN语杏增强方??法,但同时会带来可懂度的提升。??为了从频谱细节倩息中观察各种降噪方法对带??噪语音中噪声抑制和语音成分恢复的程度,图6给??出了一段被5?<ffl?Eketory噪声f#染的语音经不同有??监督方法增强后的语谱图,图6(e)可以看出,基*宁??的増强方法对噪声的抑制水平要明ffi低宁基子??D丽的方法,图6(d)可以看出,棊子DSM的方法??能够较好地抑制噪声,恢复出低频部分语t的结构??特征,但在高频部分,还是存在着结构信息的丢失..??3.0??1.0??Babble?White?Factory?Pink?FI6?HF?Channel??图3不同增强方法在不同噪声类型下的PESQ得分均值??3.0??|Noisy?
【参考文献】:
期刊论文
[1]利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 袁文浩,孙文珠,夏斌,欧世峰. 自动化学报. 2018(04)
[2]用于无监督语音降噪的听觉感知鲁棒主成分分析法[J]. 闵刚,邹霞,韩伟,张雄伟,谭薇. 声学学报. 2017(02)
[3]稀疏低秩噪声模型下无监督实时单通道语音增强算法[J]. 李轶南,张雄伟,贾冲,陈亮,曾理. 声学学报. 2015(04)
[4]听觉场景分析的研究进展[J]. 吴镇扬,张子瑜,李想,赵力. 电路与系统学报. 2001(02)
本文编号:3484157
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3484157.html