基于生成对抗网络的单通道语音增强方法研究
发布时间:2023-04-24 22:09
随着社会的快速发展,人们对于通信系统和智能语音设备的要求也越来越高。语音增强作为一种可以提高语音听觉质量和可懂性的技术,对于推动通信技术和人工智能行业的发展有着重要意义。但是实际的声学场景下,存在大量的平稳噪声和非平稳噪声,并且纯净语音和噪声之间是典型的非线性关系。传统的无监督语音增强方法依赖信号的一阶统计特性,仅适用于符合高斯先验的平稳噪声环境。而大多数的有监督语音增强方法利用神经网络的非线性结构学习噪声语音和纯净语音之间的非线性关系,在噪声类型已知的情况下能够取得较好的结果,但是在未知的噪声环境下模型性能急剧下降,增强语音的质量和可懂性也较差。生成对抗网络(Generative Adversarial Network,GAN)是当前最新颖的一种基于深度学习的生成式模型,已经成功应用到语音增强领域。研究发现,基于GAN的语音增强在非平稳噪声和未知噪声环境下,可以更好提高语音的听觉质量和可懂性。该方法已经成为语音增强中最具潜力的研究方向。本文将主要研究基于GAN的语音增强方法,致力提高生成语音的质量和可懂性,主要工作如下:(1)提出基于混合惩罚项的相对平均生成对抗网络语音增强方法。标准...
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究意义
1.2 单通道语音增强
1.3 国内外研究现状
1.3.1 传统单通道语音增强算法的研究现状
1.3.2 有监督语音增强算法的研究现状
1.3.3 基于生成对抗网络的语音增强算法研究现状
1.4 本文主要工作及结构安排
1.4.1 本文主要工作
1.4.2 本文结构安排
1.5 本章小结
第2章 基于生成对抗网络的语音增强
2.1 生成对抗网络
2.1.1 标准生成对抗网络
2.1.2 深度卷积生成对抗网络
2.1.3 条件生成对抗网络
2.1.4 最小二乘生成对抗网络
2.2 语音增强生成对抗网络
2.2.1 网络结构
2.2.2 损失函数
2.2.3 训练过程
2.3 语音增强的评价指标
2.3.1 客观评价指标
2.3.2 主观评价指标
2.4 本章小结
第3章 基于混合惩罚项的RaGAN语音增强方法
3.1 引言
3.2 提出的RaGAN-MP语音增强方法
3.2.1 基于RaGAN的语音增强
3.2.2 混合惩罚项
3.2.3 网络结构
3.3 实验设置
3.3.1 数据集及预处理
3.3.2 对比方法
3.4 实验结果分析
3.4.1 语音质量客观评价结果
3.4.2 不同语音增强方法的语谱图比较
3.4.3 不同SNR条件下的语音质量评价结果
3.4.4 语音质量主观评价结果
3.5 本章小结
第4章 基于SI-SDR优化的生成对抗网络语音增强方法
4.1 引言
4.2 提出的结合SI-SDR优化生成对抗网络的语音增强方法
4.2.1 尺度不变信号失真比(SI-SDR)
4.2.2 引入SI-SDR的损失函数
4.2.3 提出方法的总体框架
4.3 实验设置
4.3.1 数据集及预处理
4.3.2 对比方法
4.4 实验结果分析
4.4.1 语音质量客观评价结果
4.4.2 不同语音增强方法的语谱图比较
4.4.3 不同SNR条件下的语音质量评价结果
4.4.4 不同噪声类型条件下PESQ和 STOI的评价结果
4.4.5 语音质量主观评价结果
4.5 本章小结
总结与展望
参考文献
致谢
附录A 攻读硕士学位期间参与项目和发表学术论文
本文编号:3800113
【文章页数】:62 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第1章 绪论
1.1 课题背景及研究意义
1.2 单通道语音增强
1.3 国内外研究现状
1.3.1 传统单通道语音增强算法的研究现状
1.3.2 有监督语音增强算法的研究现状
1.3.3 基于生成对抗网络的语音增强算法研究现状
1.4 本文主要工作及结构安排
1.4.1 本文主要工作
1.4.2 本文结构安排
1.5 本章小结
第2章 基于生成对抗网络的语音增强
2.1 生成对抗网络
2.1.1 标准生成对抗网络
2.1.2 深度卷积生成对抗网络
2.1.3 条件生成对抗网络
2.1.4 最小二乘生成对抗网络
2.2 语音增强生成对抗网络
2.2.1 网络结构
2.2.2 损失函数
2.2.3 训练过程
2.3 语音增强的评价指标
2.3.1 客观评价指标
2.3.2 主观评价指标
2.4 本章小结
第3章 基于混合惩罚项的RaGAN语音增强方法
3.1 引言
3.2 提出的RaGAN-MP语音增强方法
3.2.1 基于RaGAN的语音增强
3.2.2 混合惩罚项
3.2.3 网络结构
3.3 实验设置
3.3.1 数据集及预处理
3.3.2 对比方法
3.4 实验结果分析
3.4.1 语音质量客观评价结果
3.4.2 不同语音增强方法的语谱图比较
3.4.3 不同SNR条件下的语音质量评价结果
3.4.4 语音质量主观评价结果
3.5 本章小结
第4章 基于SI-SDR优化的生成对抗网络语音增强方法
4.1 引言
4.2 提出的结合SI-SDR优化生成对抗网络的语音增强方法
4.2.1 尺度不变信号失真比(SI-SDR)
4.2.2 引入SI-SDR的损失函数
4.2.3 提出方法的总体框架
4.3 实验设置
4.3.1 数据集及预处理
4.3.2 对比方法
4.4 实验结果分析
4.4.1 语音质量客观评价结果
4.4.2 不同语音增强方法的语谱图比较
4.4.3 不同SNR条件下的语音质量评价结果
4.4.4 不同噪声类型条件下PESQ和 STOI的评价结果
4.4.5 语音质量主观评价结果
4.5 本章小结
总结与展望
参考文献
致谢
附录A 攻读硕士学位期间参与项目和发表学术论文
本文编号:3800113
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3800113.html