基于深度学习的语音分离算法研究与设计
发布时间:2021-02-02 12:57
经过几十年的发展语音分离技术已经取得了长足进步,目前深度学习的兴起,极大地推动语音分离技术的进一步发展。本文对单通道情况下语音分离算法进行了研究,即从单个麦克风采集到的混合语音中分离出目标人声语音。本文主要研究利用深度学习技术对语音分离算法进行改进,在对当前语音分离算法的建模思想进行深入分析后,主要发现了两点可以进行改进的地方:第一,在人声和噪声分离场景下,多层感知机在处理语音具有强大的特征提取能力,但一般采用固定有限的上下窗口对语音数据进行建模,不仅增加了输入数据的维度,还忽视了语音的时序相关性关系,对混合语音信号中所包含的特征信息利用不够充分;第二,在分离两人同时发声的混合语音时,目前分离算法大多需要同时追踪到混合语音中的两类语音特征,对于人耳来说其实很难同时听清两个人的语音,与常见的人类听觉认知的方式不同,难以设计出有效的分离模型。本文针对上述问题进行研究,提出了相应的解决方案,主要贡献如下:1.深入研究了语音分离算法的建模方式,对不同神经网络结构特性进行了探讨,提出了一种基于深度循环神经网络的人声和噪声分离算法。在使用复合神经网络的基础上,设计实现了一种基于注意力机制的特征帧拼...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究历史与现状
1.2.1 传统语音分离方法
1.2.2 深度学习语音分离
1.3 拟解决的关键问题
1.4 本文的主要贡献与创新
1.5 本论文的结构安排
第二章 相关技术背景及算法
2.1 语音的产生与感知
2.1.1 语音产生原理
2.1.2 频域转换方法
2.2 有监督语音分离框架
2.2.1 语音特征
2.2.2 学习模型
2.2.3 训练目标
2.2.4 评估指标
2.3 本章小结
第三章 基于深度循环神经网络的语音分离算法
3.1 问题描述
3.2 算法描述
3.2.1 算法设计思路
3.2.2 算法实现细节
3.3 实验与讨论
3.3.1 实验环境
3.3.2 实验数据
3.3.3 实验方法与评估指标
3.3.4 循环连接层结构有效性分析
3.3.5 注意力机制中感知机层数有效性分析
3.3.6 不同注意力计算范围的分析
3.3.7 已知噪声条件下的模型性能分析
3.3.8 未知噪声条件下模型泛化性分析
3.4 本章小结
第四章 基于多层注意力机制的语音分离算法
4.1 问题描述
4.2 算法描述
4.2.1 算法设计思路
4.2.2 算法实现细节
4.3 实验与讨论
4.3.1 实验环境
4.3.2 实验数据
4.3.3 实验方法与评估指标
4.3.4 模型多层结构的有效性分析
4.3.5 两个说话人混合场景下的分离结果分析
4.3.6 三个说话人混合场景下的分离结果分析
4.4 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]鸡尾酒会问题与相关听觉模型的研究现状与展望[J]. 黄雅婷,石晶,许家铭,徐波. 自动化学报. 2019(02)
[2]Recent Progresses in Deep Learning Based Acoustic Models[J]. Dong Yu,Jinyu Li. IEEE/CAA Journal of Automatica Sinica. 2017(03)
本文编号:3014734
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:75 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景与意义
1.1.1 研究背景
1.1.2 研究意义
1.2 研究历史与现状
1.2.1 传统语音分离方法
1.2.2 深度学习语音分离
1.3 拟解决的关键问题
1.4 本文的主要贡献与创新
1.5 本论文的结构安排
第二章 相关技术背景及算法
2.1 语音的产生与感知
2.1.1 语音产生原理
2.1.2 频域转换方法
2.2 有监督语音分离框架
2.2.1 语音特征
2.2.2 学习模型
2.2.3 训练目标
2.2.4 评估指标
2.3 本章小结
第三章 基于深度循环神经网络的语音分离算法
3.1 问题描述
3.2 算法描述
3.2.1 算法设计思路
3.2.2 算法实现细节
3.3 实验与讨论
3.3.1 实验环境
3.3.2 实验数据
3.3.3 实验方法与评估指标
3.3.4 循环连接层结构有效性分析
3.3.5 注意力机制中感知机层数有效性分析
3.3.6 不同注意力计算范围的分析
3.3.7 已知噪声条件下的模型性能分析
3.3.8 未知噪声条件下模型泛化性分析
3.4 本章小结
第四章 基于多层注意力机制的语音分离算法
4.1 问题描述
4.2 算法描述
4.2.1 算法设计思路
4.2.2 算法实现细节
4.3 实验与讨论
4.3.1 实验环境
4.3.2 实验数据
4.3.3 实验方法与评估指标
4.3.4 模型多层结构的有效性分析
4.3.5 两个说话人混合场景下的分离结果分析
4.3.6 三个说话人混合场景下的分离结果分析
4.4 本章小结
第五章 总结与展望
5.1 全文总结
5.2 工作展望
致谢
参考文献
攻读硕士学位期间取得的成果
【参考文献】:
期刊论文
[1]鸡尾酒会问题与相关听觉模型的研究现状与展望[J]. 黄雅婷,石晶,许家铭,徐波. 自动化学报. 2019(02)
[2]Recent Progresses in Deep Learning Based Acoustic Models[J]. Dong Yu,Jinyu Li. IEEE/CAA Journal of Automatica Sinica. 2017(03)
本文编号:3014734
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3014734.html