基于机器学习的欠定语音分离方法研究
本文关键词:基于机器学习的欠定语音分离方法研究
更多相关文章: 单路源提取 单通道语音分离 softmax 深度神经网络 区分性目标函数
【摘要】:语音分离技术在语音识别和说话人识别等语音处理系统中发挥着重要作用,高质量语音不仅能更好地满足入耳听觉需求,也是后续语音处理的重要保障。实际环境中的语音往往会受到干扰,这使得语音分离多年来一直受到研究者关注。语音分离的核心思想是模拟人的听觉系统从复杂的混合信号中将各路源信号单独分离出来。本文致力于研究欠定条件下的语音分离方法,主要研究成果包含以下几个方面:(1)本文提出一种将传统逐层分离与softmax分类器结合的单路源信号提取方法,该方法适用于从几路观测信号中抽取出某一路感兴趣的目标语音。首先,以目标人任意一段语音作为参考信号,然后对观测信号提取单源点并利用单源点特征训练softmax分类器,接着用训练好的softmax模型对参考信号特征进行分类,确定待提取的目标人语音,最后通过构造消源矩阵逐次消源,以分层的方式来分离各个时频点。与对比方法相比,该方法具有较低运算复杂度,同时不需要太多的先验信息。(2)基于深度神经网络强大的非线性映射和自学习能力,本文提出一种有监督的、强区分性的单通道语音分离方法。首先,本文将信号的相关系数和负熵加入目标函数,从而降低信号间的干扰。此外,为了提高学习系统的泛化能力,本文将类似人脑学习规则的课程学习融入神经网络的学习中,使得神经网络从易到难学习训练样本。不管是与基于非负矩阵分解的方法相比,还是和其他基于深度神经网络的方法比较,本文提出的方法都具备更好的分离性能。(3)本文研究了将矩阵分解和深度神经网络结合解决单通道语音分离问题。首先,分别对源信号进行矩阵分解得到字典和编码矩阵,接着用源信号编码矩阵和混合信号训练深度神经网络,用深度神经网络预测编码矩阵,最后,对于测试的混合信号,将源信号的字典和神经网络预测的编码矩阵相乘,即可恢复源信号。与传统的基于矩阵分解的单通道分离方法相比,该方法能更准确地估计编码矩阵,但需要以增加深度神经网络训练这一过程为代价。本文在TIMIT语音库上进行了一系列的计算机仿真实验,将本文提出方法与对比方法在评价体系下进行比较,实验结果证明了提出方法有更好的性能。
【关键词】:单路源提取 单通道语音分离 softmax 深度神经网络 区分性目标函数
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3
【目录】:
- 摘要4-5
- Abstract5-9
- 1 绪论9-13
- 1.1 语音分离技术研究背景及意义9-10
- 1.2 欠定语音分离技术研究概况10-11
- 1.3 本文主要研究内容及章节安排11-13
- 2 语音处理的基础概念和基本原理13-20
- 2.1 欠定语音分离的数学建模13-14
- 2.2 语音信号的特性分析14-16
- 2.3 语音特征简介16-18
- 2.4 欠定语音分离性能评价体系18-19
- 2.5 本章小结19-20
- 3 基于逐层分离和Softmax的单路源信号提取20-36
- 3.1 系统框图和原理简介20-22
- 3.2 基于逐层分离和Softmax的单路源信号提取22-31
- 3.2.1 时频点的分离和消源矩阵的构建22-28
- 3.2.2 Softmax的训练和分类28-31
- 3.3 计算机仿真实验结果31-35
- 3.3.1 语音混合的单路源提取31-32
- 3.3.2 语音与音乐混合的单路源提取32-33
- 3.3.3 语音与噪声混合的单路源提取33-35
- 3.4 本章小结35-36
- 4 基于深度神经网络的单通道语音分离36-51
- 4.1 系统框图和原理简介36-37
- 4.2 基于深度神经网络的单通道语音分离37-47
- 4.2.1 深度神经网络37-41
- 4.2.2 强区分性目标函数41-45
- 4.2.3 基于课程学习的训练方法45-47
- 4.3 计算机仿真实验结果47-49
- 4.3.1 实验参数设置47-48
- 4.3.2 实验结果与分析48-49
- 4.4 本章小结49-51
- 5 基于矩阵分解和深度神经网络的单通道语音分离51-61
- 5.1 系统框图和原理简介51-52
- 5.2 基于矩阵分解和深度神经网络的单通道语音分离52-57
- 5.2.1 非负矩阵分解与深度神经网络的结合52-54
- 5.2.2 稀疏表示与深度神经网络的结合54-57
- 5.3 计算机仿真实验结果57-60
- 5.3.1 非负矩阵分解与深度神经网络的结合57-58
- 5.3.2 稀疏表示与深度神经网络的结合58-59
- 5.3.3 实验对比和分析59-60
- 5.4 本章小结60-61
- 结论61-63
- 参考文献63-68
- 攻读硕士学位期间发表学术论文情况68-69
- 致谢69-70
【相似文献】
中国期刊全文数据库 前10条
1 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
2 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期
3 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
4 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期
6 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期
7 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期
8 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期
9 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
10 刘俊良;于凤芹;;基于分离度变步长的自然梯度算法的语音分离[J];计算机工程与应用;2013年21期
中国重要会议论文全文数据库 前5条
1 史晓非;王宪峰;黄耀P;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年
5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
中国博士学位论文全文数据库 前2条
1 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年
2 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年
2 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年
3 曹猛;基于计算听觉场景分析和深度神经网络的混响语音分离[D];太原理工大学;2016年
4 李枭雄;基于双耳空间信息的语音分离研究[D];东南大学;2015年
5 王瑜;基于计算听觉场景分析的三通道语音分离研究[D];燕山大学;2016年
6 王菁;基于计算听觉场景分析的混合语音分离[D];燕山大学;2016年
7 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年
8 陈麟琳;基于机器学习的欠定语音分离方法研究[D];大连理工大学;2016年
9 张晖;层叠与深度神经网络研究及其在语音分离中的应用[D];内蒙古大学;2014年
10 童开国;多声源环境下基于听觉中枢系统的语音分离研究[D];重庆邮电大学;2012年
,本文编号:1125069
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1125069.html