监督性语音分离中训练目标的研究
本文选题:深度神经网络 + 语音分离 ; 参考:《内蒙古大学》2017年硕士论文
【摘要】:语音分离是指从带有噪声的混合语音信号中提取出需要的目标语音信号,应用于鲁棒性语音识别、助听器设计和移动语音通信等领域。当前的语音分离技术在真实场景中的语音分离性能仍有待进一步提升。语音分离问题按照通道数分为单通道和多通道语音分离,本文主要研究单通道语音分离问题。语音分离问题可以被看做一个监督性学习问题,通过监督性学习算法加以解决。而对于监督性语音分离算法,训练目标是其中的关键环节之一,对分离性能有着重要影响。目前最常用的训练目标有理想二值掩蔽和理想浮值掩蔽,二者都是在假设纯净语音与噪声相互独立的条件下成立,在真实场景中难以满足。而复数域上的理想浮值掩蔽和相敏掩蔽考虑了语音信号的相位信息,不易于估计,因而实际分离效果仍不甚理想。相较于这些常用的时频掩蔽,本文所采用的优化浮值掩蔽,考虑了纯净语音与噪声间的相关性,符合真实场景中语音分离的条件。本文将其与监督性语音分离技术相结合,以优化浮值掩蔽作为分离目标,提出了解决语音分离问题的新方案。本文在多种噪声环境和信噪比条件下进行了仿真实验,并与几种目前常用训练目标进行对比分析,实验结果表明,本文所提出的方法进一步改善了语音分离的效果,更加适用于真实场景中的语音分离问题。考虑到优化浮值掩蔽是基于纯净语音与噪声的相关性信息,本文中进一步对更具有挑战性的不同人声之间的语音分离做了仿真实验,实验结果表明本文提出的分离方法对于不同说话人语音的分离同样具有性能优势。单通道语音去混响问题也是语音信号处理领域的研究重点之一。近年随着深度学习的推进,研究者们将深度学习应用于语音去混响问题,取得了不错的效果。本文将提出的语音分离方法用于实现语音去混响,实验结果表明去混响效果得到了一定程度的提升。
[Abstract]:Speech separation is to extract the target speech signal from the mixed speech signal with noise, which can be used in the fields of robust speech recognition, hearing aid design and mobile speech communication. The performance of the current speech separation technology in real-time scene still needs to be further improved. The speech separation problem is divided into single channel and multi channel according to the number of channels. The problem of speech separation can be regarded as a supervised learning problem, which can be solved by supervised learning algorithm. For supervised speech separation algorithm, the training target is one of the key links, which has an important impact on the separation performance. At present, the most commonly used training targets are ideal binary masking and ideal floating masking, both of which are based on the assumption that pure speech and noise are independent of each other, which is difficult to satisfy in real scenes. However, the ideal floating value masking and phase sensitive masking in complex domain take into account the phase information of speech signal, which is difficult to estimate, so the actual separation effect is still not very good. Compared with these commonly used time-frequency masking, the optimized floating value masking is adopted in this paper, considering the correlation between pure speech and noise, which accords with the condition of speech separation in real scene. In this paper, a new method to solve the problem of speech separation is proposed by combining it with the supervised speech separation technology and taking the optimization of floating value masking as the separation target. In this paper, simulation experiments are carried out in a variety of noise environments and signal-to-noise ratio (SNR) conditions, and compared with several commonly used training targets. The experimental results show that the method proposed in this paper can further improve the effect of speech separation. It is more suitable for speech separation in real scene. Considering that the optimization of floating value masking is based on the correlation information between pure speech and noise, this paper makes further simulation experiments on the more challenging speech separation between different voices. Experimental results show that the proposed separation method has the same performance advantages for different speaker speech separation. The problem of single-channel speech dereverberation is also one of the focuses in the field of speech signal processing. In recent years, with the development of deep learning, researchers have applied deep learning to the problem of phonological reverberation, and achieved good results. In this paper, the proposed speech separation method is used to realize the speech de-reverberation. The experimental results show that the de-reverberation effect has been improved to a certain extent.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3
【相似文献】
相关期刊论文 前10条
1 李从清;孙立新;龙东;任晓光;;语音分离技术的研究现状与展望[J];声学技术;2008年05期
2 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期
3 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期
4 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期
5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期
6 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期
7 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期
8 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期
9 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期
10 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期
相关会议论文 前5条
1 史晓非;王宪峰;黄耀P;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年
4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年
5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年
相关博士学位论文 前3条
1 王燕南;基于深度学习的说话人无关单通道语音分离[D];中国科学技术大学;2017年
2 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年
3 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年
相关硕士学位论文 前10条
1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年
2 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年
3 曹猛;基于计算听觉场景分析和深度神经网络的混响语音分离[D];太原理工大学;2016年
4 李枭雄;基于双耳空间信息的语音分离研究[D];东南大学;2015年
5 王瑜;基于计算听觉场景分析的三通道语音分离研究[D];燕山大学;2016年
6 王菁;基于计算听觉场景分析的混合语音分离[D];燕山大学;2016年
7 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年
8 陈麟琳;基于机器学习的欠定语音分离方法研究[D];大连理工大学;2016年
9 李号;基于深度学习的单通道语音分离[D];内蒙古大学;2017年
10 夏莎莎;监督性语音分离中训练目标的研究[D];内蒙古大学;2017年
,本文编号:1804183
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1804183.html