基于生成对抗网络的端到端多语音分离技术研究
发布时间:2023-06-28 01:38
随着人工智能时代的到来,越来越多的智能设备走进人们生活,语音作为人机交互的重要接口,为生活带来了巨大便利,因此众多学者将语音处理的相关技术引入各个领域。但是目前的语音识别等技术都是建立在实验环境下,而在嘈杂的实际应用场景往往得不到好的效果。因此能够去除背景噪声或其他无关人说话干扰的语音分离技术有很大的应用空间。生成对抗网络作为一个新兴的深度学习网络,在原有的单一深度学习模型的基础上,增加了判别模型,提高模型的学习能力。目前在图像生成领域,生成对抗网络有着非常突出的成绩,但是在语音分离问题上尚未有所开发,本文首次将生成对抗网络应用于语音分离问题。同时目前语音分离技术一般都是基于预先提取的音频特征作为网络输入,忽略了在提取特征的过程中造成语音高频部分以及相关性信息的损失,以及在变换过程中可能会引入虚假信息从而对语音分离的性能造成影响。所以本文采用生成对抗网络,以原始语音信号的波形作为输入,实现端到端的语音分离模型,并在原有网络的基础上从以下几个方面对网络性能进行提升。1、针对传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,提取复杂特征作为输入的过程中会造成能量损失的问题,本文选...
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题的背景及研究意义
1.2 课题发展历史及国内外研究现状
1.2.1 语音分离问题概述
1.2.2 语音分离技术发展历史
1.2.3 深度学习在语音分离方面的研究现状
1.2.4 生成对抗网络的研究现状
1.3 本文主要内容及章节安排
第2章 语音分离相关方法及声学特征提取
2.1 语音分离方法概述
2.1.1 传统语音分离方法
2.1.2 基于深度学习的语音分离方法
2.2 传统音频特征及提取相关方法
2.2.1 频谱图
2.2.2 梅尔频率倒谱系数
2.2.3 本文拟采用的音频特征
2.3 本章小结
第3章 基于生成对抗网络实现多语音分离模型
3.1 生成对抗网络的基本原理
3.1.1 生成对抗网络的模型动机
3.1.2 模型原理的数学物理描述
3.2 选择生对对抗网络的理论依据及改进
3.3 基于生成对抗网络的端到端多语音分离模型结构
3.4 实现语音分离关键问题的解决方案
3.4.1 语音信号预处理
3.4.2 多语音分离目标掩码设置
3.4.3 数据扩张
3.4.4 语音分离系统的生成模型(Generator)
3.4.5 语音分离系统的判别模型(Discriminator)
3.5 本章总结
第4章 实验结果与分析
4.1 实验环境准备
4.2 实验数据集建立
4.3 基于生成对抗网络的端到端多语音分离模型实验结果
4.4 对比实验分析
4.4.1 不同输入帧长对语音分离效果影响
4.4.2 不同输入特征对语音分离效果的影响
4.4.3 不同生成模型语音分离效果对比
4.4.4 不同判别模型中损失函数的效果对比
4.4.5 不同深度学习网络模型的语音分离效果对比
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:3835724
【文章页数】:84 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
第1章 绪论
1.1 课题的背景及研究意义
1.2 课题发展历史及国内外研究现状
1.2.1 语音分离问题概述
1.2.2 语音分离技术发展历史
1.2.3 深度学习在语音分离方面的研究现状
1.2.4 生成对抗网络的研究现状
1.3 本文主要内容及章节安排
第2章 语音分离相关方法及声学特征提取
2.1 语音分离方法概述
2.1.1 传统语音分离方法
2.1.2 基于深度学习的语音分离方法
2.2 传统音频特征及提取相关方法
2.2.1 频谱图
2.2.2 梅尔频率倒谱系数
2.2.3 本文拟采用的音频特征
2.3 本章小结
第3章 基于生成对抗网络实现多语音分离模型
3.1 生成对抗网络的基本原理
3.1.1 生成对抗网络的模型动机
3.1.2 模型原理的数学物理描述
3.2 选择生对对抗网络的理论依据及改进
3.3 基于生成对抗网络的端到端多语音分离模型结构
3.4 实现语音分离关键问题的解决方案
3.4.1 语音信号预处理
3.4.2 多语音分离目标掩码设置
3.4.3 数据扩张
3.4.4 语音分离系统的生成模型(Generator)
3.4.5 语音分离系统的判别模型(Discriminator)
3.5 本章总结
第4章 实验结果与分析
4.1 实验环境准备
4.2 实验数据集建立
4.3 基于生成对抗网络的端到端多语音分离模型实验结果
4.4 对比实验分析
4.4.1 不同输入帧长对语音分离效果影响
4.4.2 不同输入特征对语音分离效果的影响
4.4.3 不同生成模型语音分离效果对比
4.4.4 不同判别模型中损失函数的效果对比
4.4.5 不同深度学习网络模型的语音分离效果对比
4.5 本章小结
结论
参考文献
攻读硕士学位期间发表的论文和取得的科研成果
致谢
本文编号:3835724
本文链接:https://www.wllwen.com/kejilunwen/wltx/3835724.html