基于深度学习的语音增强算法研究与实现
发布时间:2021-09-05 06:19
语音增强是指利用音频信号处理技术及各种算法提高失真语音信号的可懂度或整体感知质量,从而进一步在语音识别、语音通话、军事窃听和听力辅助等场景中改善应用效果。本文主要研究基于深度学习的语音增强算法,即凭借深度学习模型学习带噪语音与纯净语音之间的映射关系,达到提升带噪语音信号可懂度和质量的目的。通过对现有算法的设计思路与建模机制进行深入分析后,发现这些方法存在以下几个不足:第一,模型训练目标与评价指标不匹配,一般的损失函数不能反映人耳听觉感受,而评价指标围绕人耳听觉进行设计,导致损失函数与评价指标的失配,使最优模型达不到较好的评价。第二,目前针对低信噪比条件下的语音增强研究较少,而在低信噪比条件下,语音成分稀疏,目前的模型缺少保留语音信息的针对性设计,使得恢复完整语音的难度增加,导致增强语音的质量与可懂度下降。本文针对上述问题进行研究,提出了相应的解决方案,主要贡献如下:(1)提出基于生成对抗神经网络的语音增强算法。针对问题一,研究博弈对抗训练模式,令判别器神经网络学习纯净的语音与带噪语音之间的区别,理想目标是使之学习人类的听觉感受,并且给予语音增强模型与评价指标相匹配的反馈。实验结果表明,...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
STOI计算过程
第二章相关技术背景及算法19语音可懂度正相关,即值越大表示语音可懂度越好。图2-10STOI计算过程2.5.2主观语音质量评估PESQ该指标的设计目的是评估语音质量,与MOS高度相关,侧重于评估语音的清晰度。其典型的应用场景是网络电话。它是感知分析测量系统和感知语音质量增强版PSQM99(PerceptualSpeechQualityMeasure99)集成的结果,应用范围广泛,包括模拟连接、编解码器、报文丢失、可变延迟。同时它是国际公认的客观MOS评估方法。其取值范围在-0.5至4.5之间。图2-11PESQ模型的结构图[62]2.5.3语音失真比SDR在语音增强和盲源分离中,信噪比一般是降噪/分离语音质量的粗略客观度量。2010年,Vincent等人提出一种细化的度量方法,通过正交投影,它将一段混合语音s根据各种因素分解成4个成分,targets、interfe、noisee、artife,分别表示分离的目标语音,非目标的干扰语音成分,噪声成分,以及算法额外引入的成分。SDR计算:
WSEM的生成器结构
【参考文献】:
期刊论文
[1]基于小波包与自适应维纳滤波的语音增强算法[J]. 董胡,徐雨明,马振中,李列文,任可. 计算机技术与发展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 袁文浩,孙文珠,夏斌,欧世峰. 自动化学报. 2018(04)
[4]基于感知掩蔽深度神经网络的单通道语音增强方法[J]. 韩伟,张雄伟,闵刚,张启业. 自动化学报. 2017(02)
[5]基于深度学习语音分离技术的研究现状与进展[J]. 刘文举,聂帅,梁山,张学良. 自动化学报. 2016(06)
[6]深度语音信号与信息处理:研究进展与展望[J]. 戴礼荣,张仕良. 数据采集与处理. 2014(02)
本文编号:3384846
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:69 页
【学位级别】:硕士
【部分图文】:
STOI计算过程
第二章相关技术背景及算法19语音可懂度正相关,即值越大表示语音可懂度越好。图2-10STOI计算过程2.5.2主观语音质量评估PESQ该指标的设计目的是评估语音质量,与MOS高度相关,侧重于评估语音的清晰度。其典型的应用场景是网络电话。它是感知分析测量系统和感知语音质量增强版PSQM99(PerceptualSpeechQualityMeasure99)集成的结果,应用范围广泛,包括模拟连接、编解码器、报文丢失、可变延迟。同时它是国际公认的客观MOS评估方法。其取值范围在-0.5至4.5之间。图2-11PESQ模型的结构图[62]2.5.3语音失真比SDR在语音增强和盲源分离中,信噪比一般是降噪/分离语音质量的粗略客观度量。2010年,Vincent等人提出一种细化的度量方法,通过正交投影,它将一段混合语音s根据各种因素分解成4个成分,targets、interfe、noisee、artife,分别表示分离的目标语音,非目标的干扰语音成分,噪声成分,以及算法额外引入的成分。SDR计算:
WSEM的生成器结构
【参考文献】:
期刊论文
[1]基于小波包与自适应维纳滤波的语音增强算法[J]. 董胡,徐雨明,马振中,李列文,任可. 计算机技术与发展. 2020(01)
[2]Generative Adversarial Networks:Introduction and Outlook[J]. Kunfeng Wang,Chao Gou,Yanjie Duan,Yilun Lin,Xinhu Zheng,Fei-Yue Wang. IEEE/CAA Journal of Automatica Sinica. 2017(04)
[3]利用深度卷积神经网络提高未知噪声下的语音增强性能[J]. 袁文浩,孙文珠,夏斌,欧世峰. 自动化学报. 2018(04)
[4]基于感知掩蔽深度神经网络的单通道语音增强方法[J]. 韩伟,张雄伟,闵刚,张启业. 自动化学报. 2017(02)
[5]基于深度学习语音分离技术的研究现状与进展[J]. 刘文举,聂帅,梁山,张学良. 自动化学报. 2016(06)
[6]深度语音信号与信息处理:研究进展与展望[J]. 戴礼荣,张仕良. 数据采集与处理. 2014(02)
本文编号:3384846
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3384846.html