基于卷积神经网络的鲁棒性基音检测方法研究
[Abstract]:Speech is the carrier of information in language symbol system and the most common communication medium in daily life. Pitch is a key feature in speech signal and plays an irreplaceable role. It has been widely used in speech synthesis, speech recognition and other fields. Accurate and efficient speech pitch extraction directly affects the accuracy of speech recognition, the naturalness of speech synthesis and the clarity of speech separation. At present, the extraction of speech pitch in pure speech environment has achieved good results. However, in the noise environment, because the harmonic structure is seriously damaged, it is still a difficult task to detect the pitch in the noise environment. In this paper, a convolutional neural network (Convolutional Neural Network, CNN) is proposed to accomplish this work. CNN is displacement-invariant. By moving the convolution kernel, it can better describe the harmonic structure in the linguistic spectrum. In the implementation, we use CNN to select candidate pitch, then consider the continuity of speech signal, and then use dynamic programming (Dynamic Programing, DP) method to track pitch to generate continuous pitch contour. In the same data set, different methods are used to carry out the contrast experiment. The experimental results show that compared with other methods, the proposed method has obvious performance advantages and can obtain higher pitch detection rate (Detection Rate, DR), lower error decision rate (Voice Decision Error, VDE):) and depth neural network (Deep Neutral Network,). Compared with the DNN), nonlinear amplitude compression method ('PEFAC') and Jin and Wang (' Jin', the average DR increases by 5.58% and 16.41%, respectively. VDE decreased by 1.91% and 10.04% respectively. This method has better generalization performance and better robustness to the new speaker and noise. As the similarity between the test set and the training set becomes smaller, the advantages of the proposed method become more and more obvious.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3;TP183
【相似文献】
相关期刊论文 前10条
1 王都生,铁满霞,樊昌信;一种实时基音检测算法[J];电子学报;2000年10期
2 胡剑凌,徐盛,陈健;一种改进的基音检测算法[J];上海交通大学学报;2000年06期
3 由红,陈健;改进的频域基音检测算法[J];上海交通大学学报;2001年06期
4 赵建伟,楼红伟,徐大为,刘重庆;噪声环境下的基音检测方法[J];红外与激光工程;2002年01期
5 李香春,杜利民;一种基于多尺度边缘特征提取的基音检测算法[J];电子学报;2003年10期
6 彭辉,宁飞,孔宇;小波的提升方法在基音提取中的应用[J];山东大学学报(理学版);2003年01期
7 楼红伟,赵建伟,胡光锐;一种小波加权的基音检测方法[J];上海交通大学学报;2003年03期
8 朱君波,高瑞华,王守觉;一种基于能量对称度参数的实时基音检测方法[J];声学与电子工程;2003年04期
9 赵晓群,刘颖娜,武睿;基于形态滤波的基音检测新方法[J];通信学报;2004年05期
10 张天骐,张战,权进国,林孝康;语音信号基音检测的二次谱方法[J];计算机应用;2005年04期
相关会议论文 前8条
1 黄鹤;鲍长春;;一种低延时坚韧的基音检测算法[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
2 林志钢;王长富;戴蓓倩;;基音检测的新方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 尹建琪;张涌;;无限精度语声基音提取[A];第二届全国人机语音通讯学术会议论文集[C];1992年
4 李宝利;景新幸;;小波分析在语音基音检测中的应用[A];中国声学学会2007年青年学术会议论文集(下)[C];2007年
5 关存太;陈永彬;;用编码器实现清浊判别和基音检测[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
6 谢晓桦;谢凌云;;基于曲线拟合系数的汉语声调判别方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年
7 胡波;肖熙;;一种新的检测语音端点及基音的概率模型及方法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
8 刘洪涛;张保轩;;在PC机上实现的汉语话者确认系统[A];第四届全国人机语音通讯学术会议论文集[C];1996年
相关博士学位论文 前1条
1 胡琦;基于计算听觉场景分析的单信道语言分离[D];北京交通大学;2014年
相关硕士学位论文 前10条
1 黄志强;卷积神经网络研究及其在基音检测中的应用[D];内蒙古大学;2015年
2 王春娟;基于多窗谱和均值移动算法的基音检测研究[D];苏州大学;2015年
3 苏红;基于卷积神经网络的鲁棒性基音检测方法研究[D];内蒙古大学;2016年
4 胡瑛;低信噪比下基音检测算法研究[D];中南大学;2007年
5 徐国钰;基于多小波的基音检测法及歌声的客观评价研究[D];广西师范大学;2006年
6 李仕涛;多基音检测算法研究[D];西安电子科技大学;2014年
7 焦蓓;语音信号的基音检测法研究[D];湘潭大学;2013年
8 郑瑞;基音检测算法研究及其在语音合成中的应用[D];南京师范大学;2014年
9 肖春梅;基于基音同步叠加方法的汉语语音合成处理研究[D];昆明理工大学;2014年
10 张营;基音特征提取算法的研究及其在语音门锁中的应用[D];吉林大学;2007年
,本文编号:2296036
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2296036.html