基于卷积神经网络的语音分离方法研究与实现

发布时间:2018-03-20 13:58

  本文选题:语音分离 切入点:卷积神经网络 出处:《内蒙古大学》2017年硕士论文 论文类型:学位论文


【摘要】:随着智能手机和智能设备逐渐普及,人机语音交互技术日益得到了广泛的关注和重视。如何使人机语音交互变得像人与人之间的交流一样方便和高效成为了最近几年研究的热点问题。而人机语音交互技术中核心问题之一是语音分离,前端语音分离模块的性能对人机交互中的自动语音识别、语音自动翻译和说话者识别都有十分重要的影响。近几年随着深度学习的兴起,基于深度模型的语音分离逐渐成为了一种新的研究趋势,并且得到了较好的语音分离效果。然而,基于卷积神经网络(Convolutional Neural Network,CNN)的语音分离研究成果还非常少。并且,相比于深度神经网络(Deep Neural Network,DNN),CNN更加擅长于挖掘输入语音信号中的时空特性,能够更好地刻画语音特征。在本文中采用卷积神经网络作为建模工具进行语音分离。本文完成了单通道语音分离和多通道语音分离两个实验,其中每个实验都在相同数据集上使用卷积神经网络和深度神经网络两个模型来分别实现的。单通道语音分离是在标准语音库TIMIT上进行的实验,多通道语音分离是在CHIME3官方提供的比赛数据上进行的实验,经实验结果表明,相比于深度神经网络,卷积神经网络能够在明显降低模型复杂度和减少训练权重参数的同时,估计出具有更高主观语音质量(Perceptual Evaluation of Speech Quality,PESQ)和短时客观语音可懂度(Short Time Objective Intelligibility,STOI)的语音。
[Abstract]:With the popularity of smartphones and smart devices, The technology of human-computer speech interaction has been paid more and more attention. How to make human-computer speech interaction as convenient and efficient as the communication between people has become a hot issue in recent years. One of the core issues in interoperability is speech separation. The performance of the front-end speech separation module plays an important role in automatic speech recognition, speech translation and speaker recognition in human-computer interaction. Speech separation based on depth model has gradually become a new research trend, and has obtained better speech separation effect. However, the research results of speech separation based on convolution neural network Convolutional Neural Network (CNN) are still very few. Compared with Deep Neural Network CNN, it is better at mining temporal and spatial characteristics of input speech signals. In this paper, convolution neural network is used as a modeling tool for speech separation. In this paper, two experiments of single channel speech separation and multi channel speech separation are completed. Each experiment is implemented on the same data set using convolution neural network and depth neural network respectively. Single channel speech separation is carried out on the standard speech corpus TIMIT. Multi-channel speech separation is an experiment based on the competition data provided by CHIME3. The experimental results show that compared with the depth neural network, the convolutional neural network can significantly reduce the complexity of the model and reduce the training weight parameters at the same time. The speech with higher subjective Evaluation of Speech quality and short Time Objective intelligibilitySTOI) is estimated.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 李从清;孙立新;龙东;任晓光;;语音分离技术的研究现状与展望[J];声学技术;2008年05期

2 施剑;杜利民;;基于麦克阵列的实时盲语音分离系统[J];微计算机应用;2008年05期

3 张磊;刘继芳;项学智;;基于计算听觉场景分析的混合语音分离[J];计算机工程;2010年14期

4 杨海滨;张军;;基于模型的单通道语音分离综述[J];计算机应用研究;2010年11期

5 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年01期

6 虞晓,胡光锐;基于高斯混合密度函数估计的语音分离[J];上海交通大学学报;2000年02期

7 张雪峰,刘建强,冯大政;一种快速的频域盲语音分离系统[J];信号处理;2005年05期

8 陈锴;卢晶;徐柏龄;;基于话者状态检测的自适应语音分离方法的研究[J];声学学报;2006年03期

9 董优丽;谢勤岚;;不确定信号源个数的语音分离[J];现代电子技术;2008年03期

10 徐方鑫;;瑞米兹交替算法在语音分离上的应用[J];电脑知识与技术;2012年03期

相关会议论文 前5条

1 史晓非;王宪峰;黄耀P;刘人杰;;一个推广参数矢量算法在语音分离中的应用[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年

2 刘学观;陈雪勤;赵鹤鸣;;基于改进遗传算法的混叠语音分离研究[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

3 林静然;彭启琮;邵怀宗;;基于麦克风阵列的双波束近场定位及语音分离[A];第二届全国信息获取与处理学术会议论文集[C];2004年

4 茅泉泉;赵力;;基于MIMO的盲信道语音分离技术[A];2004年全国物理声学会议论文集[C];2004年

5 李量;杜忆;吴玺宏;Claude Alain;;人类听皮层在语音分离中对频率线索和空间线索的线性整合[A];增强心理学服务社会的意识和功能——中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议论文摘要集[C];2011年

相关博士学位论文 前3条

1 王燕南;基于深度学习的说话人无关单通道语音分离[D];中国科学技术大学;2017年

2 赵立恒;基于计算听觉场景分析的单声道语音分离研究[D];中国科学技术大学;2012年

3 王雨;基于计算听觉场景分析的单通道语音分离研究[D];华东理工大学;2013年

相关硕士学位论文 前10条

1 赵训川;基于计算听觉场景分析和麦克风阵列的语音分离的研究[D];燕山大学;2015年

2 何求知;单通道语音分离关键技术研究[D];电子科技大学;2015年

3 曹猛;基于计算听觉场景分析和深度神经网络的混响语音分离[D];太原理工大学;2016年

4 李枭雄;基于双耳空间信息的语音分离研究[D];东南大学;2015年

5 王瑜;基于计算听觉场景分析的三通道语音分离研究[D];燕山大学;2016年

6 王菁;基于计算听觉场景分析的混合语音分离[D];燕山大学;2016年

7 束佳明;基于双耳声源定位的鲁棒语音分离研究[D];东南大学;2016年

8 陈麟琳;基于机器学习的欠定语音分离方法研究[D];大连理工大学;2016年

9 李号;基于深度学习的单通道语音分离[D];内蒙古大学;2017年

10 夏莎莎;监督性语音分离中训练目标的研究[D];内蒙古大学;2017年



本文编号:1639382

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1639382.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e5b59***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com