基于麦克风阵列的语音分离算法研究
发布时间:2021-05-07 10:06
语音是人类通信中最方便、快捷的形式,随着人工智能社会的到来,语音交互也成人机交互的第一选择。然而在现实生活中,语音的背景环境往往是复杂且对语音质量产生负面影响的,我们常常需要从复杂的噪声背景中提取出我们感兴趣的语音并且尽可能保持语音的保真度。目前研究者们已经取得较多显著的成果,但是依旧面临着算法的鲁棒性不强和目标语音的感知质量不够高等问题。本文将针对从复杂噪声背景中提取出单目标语音和多说话人分离两个场景做了一些深入的研究。首先是复杂噪声背景中单目标声源的语音分离的研究。针对噪声的存在特别是低信噪比的场景,广义互相关(GCC)的性能严重下降,从而严重影响广义互相关-非负矩阵分解(GCC-NMF)的分离性能。针对该情形,本文提出了新的校准函数——将基于双向长短记忆网络(BLSTM)学习到的理想二值掩蔽(IBM)作为新的权重因子加入的GCC-PHAT(MWGCC-PHAT)和GCC-NMF(MWGCC-NMF)。实验表明,MWGCC-NMF能够分离出GCC-PHAT分离失败的低信噪比混合语音。总体性能上对比GCC-NMF,SDR相对提高了25.44%,PESQ提高了14.75%,OPS提高了...
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 语音增强
1.2.2 多说话人分离
1.3 论文主要工作
1.4 文章结构安排
第二章 麦克风阵列和语音分离的相关理论
2.1 麦克风阵列
2.1.1 传播模型
2.1.1.1 远场传播模型
2.1.1.2 近场传播模型
2.1.2 阵列拓扑结构
2.1.2.1 均匀线性阵列
2.1.2.2 均匀圆形阵列
2.1.2.3 均匀球面阵列
2.2 语音分离
2.2.1 语音信号的特性
2.2.2 语音分离的数学模型
2.2.3 信息理论
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 传统语音分离算法
2.2.4.1 基于信号处理的语音增强
2.2.4.2 基于模型的语音分离方法
2.2.5 语音信号分离性能评价准则
2.2.5.1 PEASS准则
2.2.5.2 PESQ准则
2.2.5.3 SNR准则
2.2.5.4 BSS Eval准则
第三章 基于MWGCC-NMF的语音分离
3.1 MWGCC-NMF系统架构
3.2 基于BLSTM的Mask估计
3.2.1 训练
3.2.1.1 理想二值掩蔽
3.2.1.2 双向长度记忆网络
3.2.1.3 训练集和交叉验证集的生成
3.2.2 测试集
3.2.3 实验结果和分析
3.3 MWGCC-NMF算法具体介绍
3.3.1 短时傅里叶变换及其逆变换
3.3.2 非负矩阵分解
3.3.3 Mask-Weighted的广义互相关
3.3.4 Mask-weighted GCC-NMF和系数掩蔽
3.4 实验结果与分析
3.4.1 窗口阈值对分离性能的影响
3.4.2 字典矩阵的列数对分离性能的影响
3.4.3 估计的信噪比阈值对分离性能的影响
3.4.4 MWGCC-NMF整体性能的分析和对比
第四章 基于Logistic回归选择策略的GCC-NMF
4.1 基于Logistic回归选择策略的GCC-NMF系统架构
4.2 多说话人分离的GCC-NMF
4.2.1 非线性补偿的广义互相关
4.2.2 系数掩蔽
4.3 训练Logistic回归模型
4.3.1 Logistic回归
4.3.2 训练数据
4.3.3 特征选择
4.3.4 训练模型
4.4 实验结果与分析
4.4.1 仿真实验
4.4.2 实采数据
4.5 可视化的基于麦克风阵列的语音分离系统
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间取得的研究成果
【参考文献】:
期刊论文
[1]基于听觉掩蔽效应的语音增强算法[J]. 蔡军,李飞,张毅. 计算机工程. 2017(07)
[2]基于环形麦克风阵列的远场语音识别系统[J]. 支艳利,张云伟. 微型电脑应用. 2017(04)
[3]基于正则化约束最小二乘的稳健频率不变波束形成器设计方法[J]. 李静,陈华伟. 数据采集与处理. 2012(02)
[4]基于近场波束形成的麦克风阵列语音增强方法[J]. 王冬霞,殷福亮. 电子与信息学报. 2007(01)
硕士论文
[1]语音分离算法的研究与实现[D]. 李雅婷.西安电子科技大学 2014
[2]语音盲分离算法研究[D]. 乔永凤.太原理工大学 2007
本文编号:3173209
【文章来源】:北京邮电大学北京市 211工程院校 教育部直属院校
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 语音增强
1.2.2 多说话人分离
1.3 论文主要工作
1.4 文章结构安排
第二章 麦克风阵列和语音分离的相关理论
2.1 麦克风阵列
2.1.1 传播模型
2.1.1.1 远场传播模型
2.1.1.2 近场传播模型
2.1.2 阵列拓扑结构
2.1.2.1 均匀线性阵列
2.1.2.2 均匀圆形阵列
2.1.2.3 均匀球面阵列
2.2 语音分离
2.2.1 语音信号的特性
2.2.2 语音分离的数学模型
2.2.3 信息理论
2.2.3.1 KL散度
2.2.3.2 交叉熵
2.2.4 传统语音分离算法
2.2.4.1 基于信号处理的语音增强
2.2.4.2 基于模型的语音分离方法
2.2.5 语音信号分离性能评价准则
2.2.5.1 PEASS准则
2.2.5.2 PESQ准则
2.2.5.3 SNR准则
2.2.5.4 BSS Eval准则
第三章 基于MWGCC-NMF的语音分离
3.1 MWGCC-NMF系统架构
3.2 基于BLSTM的Mask估计
3.2.1 训练
3.2.1.1 理想二值掩蔽
3.2.1.2 双向长度记忆网络
3.2.1.3 训练集和交叉验证集的生成
3.2.2 测试集
3.2.3 实验结果和分析
3.3 MWGCC-NMF算法具体介绍
3.3.1 短时傅里叶变换及其逆变换
3.3.2 非负矩阵分解
3.3.3 Mask-Weighted的广义互相关
3.3.4 Mask-weighted GCC-NMF和系数掩蔽
3.4 实验结果与分析
3.4.1 窗口阈值对分离性能的影响
3.4.2 字典矩阵的列数对分离性能的影响
3.4.3 估计的信噪比阈值对分离性能的影响
3.4.4 MWGCC-NMF整体性能的分析和对比
第四章 基于Logistic回归选择策略的GCC-NMF
4.1 基于Logistic回归选择策略的GCC-NMF系统架构
4.2 多说话人分离的GCC-NMF
4.2.1 非线性补偿的广义互相关
4.2.2 系数掩蔽
4.3 训练Logistic回归模型
4.3.1 Logistic回归
4.3.2 训练数据
4.3.3 特征选择
4.3.4 训练模型
4.4 实验结果与分析
4.4.1 仿真实验
4.4.2 实采数据
4.5 可视化的基于麦克风阵列的语音分离系统
第五章 总结与展望
5.1 总结
5.2 展望
致谢
参考文献
攻读学位期间取得的研究成果
【参考文献】:
期刊论文
[1]基于听觉掩蔽效应的语音增强算法[J]. 蔡军,李飞,张毅. 计算机工程. 2017(07)
[2]基于环形麦克风阵列的远场语音识别系统[J]. 支艳利,张云伟. 微型电脑应用. 2017(04)
[3]基于正则化约束最小二乘的稳健频率不变波束形成器设计方法[J]. 李静,陈华伟. 数据采集与处理. 2012(02)
[4]基于近场波束形成的麦克风阵列语音增强方法[J]. 王冬霞,殷福亮. 电子与信息学报. 2007(01)
硕士论文
[1]语音分离算法的研究与实现[D]. 李雅婷.西安电子科技大学 2014
[2]语音盲分离算法研究[D]. 乔永凤.太原理工大学 2007
本文编号:3173209
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3173209.html