基于卷积编解码器和门控循环单元的语音分离算法
发布时间:2021-11-23 18:38
在大部分基于深度学习的语音分离和语音增强算法中,把傅里叶变换后的频谱特征作为神经网络的输入特征,并未考虑到语音信号中的相位信息。然而过去的一些研究表明,尤其是在低信噪比(SNR)条件下,相位信息对于提高语音质量是必不可少的。针对这个问题,提出了一种基于卷积编解码器网络和门控循环单元(CED-GRU)的语音分离算法。首先,利用原始波形既包含幅值信息也包含相位信息的特点,在输入端以混合语音信号的原始波形作为输入特征;其次,通过结合卷积编解码器(CED)网络和门控循环单元(GRU)网络,可以有效解决语音信号中存在的时序问题。提出的改进算法在男性和男性、男性和女性、女性和女性的语音质量的感知评价(PESQ)和短时目标可懂度(STOI)方面,与基于排列不变训练(PIT)算法、基于深度聚类(DC)算法、基于深度吸引网络(DAN)算法相比,分别提高了1. 16和0. 29、1. 37和0. 27、1. 08和0. 3;0. 87和0. 21、1. 11和0. 22、0. 81和0. 24;0. 64和0. 24、1. 01和0. 34、0. 73和0. 29个百分点。实验结果表明,基于CED-GRU...
【文章来源】:计算机应用. 2020,40(07)北大核心CSCD
【文章页数】:5 页
【部分图文】:
不同算法的SAR平均值
不同算法的SIR平均值
LSTM结构
【参考文献】:
期刊论文
[1]基于深层声学特征的端到端语音分离[J]. 李娟娟,王丹,李子晋. 计算机系统应用. 2019(10)
[2]一种基于卷积神经网络的端到端语音分离方法[J]. 范存航,刘斌,陶建华,温正棋,易江燕. 信号处理. 2019(04)
本文编号:3514441
【文章来源】:计算机应用. 2020,40(07)北大核心CSCD
【文章页数】:5 页
【部分图文】:
不同算法的SAR平均值
不同算法的SIR平均值
LSTM结构
【参考文献】:
期刊论文
[1]基于深层声学特征的端到端语音分离[J]. 李娟娟,王丹,李子晋. 计算机系统应用. 2019(10)
[2]一种基于卷积神经网络的端到端语音分离方法[J]. 范存航,刘斌,陶建华,温正棋,易江燕. 信号处理. 2019(04)
本文编号:3514441
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3514441.html