当前位置:主页 > 科技论文 > 信息工程论文 >

基于卷积神经网络的鲁棒性基音检测方法研究

发布时间:2018-10-26 14:31
【摘要】:语音是语言符号系统中信息的载体,是日常生活中应用最普遍的交流媒介。在语音信号中,基音是一个关键的特征,且发挥不可替代的作用,已广泛应用于语音合成、语音识别等领域。精确而高效地提取语音基音直接影响着语音识别的准确率、语音合成的自然度以及语音分离的清晰度等。目前,在纯净语音环境中提取语音基音已经取得了不错的效果,然而,在噪声环境下,由于谐波结构被严重破坏,检测噪声环境中语音的基音仍然是一项难度较大的工作。本文提出使用卷积神经网络(Convolutional Neural Network, CNN)来完成这项工作。CNN具有位移不变性,通过卷积核的移动,能够更好地刻画语谱中的谐波结构。在具体的实现中,本文使用CNN来选取候选基音,然后考虑到语音信号的连续性,再用动态规划(Dynamic Programing, DP)方法进行基音追踪,生成连续的基音轮廓。在相同的数据集上用不同的方法进行对比实验。实验结果表明,与其它方法相比,本文的方法具有明显的性能优势,能够得到较高的基音检测率(Detection Rate, DR)和较低的错误决策率(Voice Decision Error, VDE):与深度神经网络(Deep Neutral Network, DNN)、非线性幅度压缩法(以下简称'PEFAC')和Jin and Wang(以下简称‘Jin’)相比,本文提出的方法,DR平均分别提升了5.58%、5.75%和16.41%;VDE则分别下降了1.91%、4.25%和10.04%,该方法对新的说话人和噪声有很好的泛化性能,具有更好的鲁棒性。并且随着测试集与训练集的相似性逐渐变小,我们所提出方法的优势也越来越明显。
[Abstract]:Speech is the carrier of information in language symbol system and the most common communication medium in daily life. Pitch is a key feature in speech signal and plays an irreplaceable role. It has been widely used in speech synthesis, speech recognition and other fields. Accurate and efficient speech pitch extraction directly affects the accuracy of speech recognition, the naturalness of speech synthesis and the clarity of speech separation. At present, the extraction of speech pitch in pure speech environment has achieved good results. However, in the noise environment, because the harmonic structure is seriously damaged, it is still a difficult task to detect the pitch in the noise environment. In this paper, a convolutional neural network (Convolutional Neural Network, CNN) is proposed to accomplish this work. CNN is displacement-invariant. By moving the convolution kernel, it can better describe the harmonic structure in the linguistic spectrum. In the implementation, we use CNN to select candidate pitch, then consider the continuity of speech signal, and then use dynamic programming (Dynamic Programing, DP) method to track pitch to generate continuous pitch contour. In the same data set, different methods are used to carry out the contrast experiment. The experimental results show that compared with other methods, the proposed method has obvious performance advantages and can obtain higher pitch detection rate (Detection Rate, DR), lower error decision rate (Voice Decision Error, VDE):) and depth neural network (Deep Neutral Network,). Compared with the DNN), nonlinear amplitude compression method ('PEFAC') and Jin and Wang (' Jin', the average DR increases by 5.58% and 16.41%, respectively. VDE decreased by 1.91% and 10.04% respectively. This method has better generalization performance and better robustness to the new speaker and noise. As the similarity between the test set and the training set becomes smaller, the advantages of the proposed method become more and more obvious.
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3;TP183

【相似文献】

相关期刊论文 前10条

1 王都生,铁满霞,樊昌信;一种实时基音检测算法[J];电子学报;2000年10期

2 胡剑凌,徐盛,陈健;一种改进的基音检测算法[J];上海交通大学学报;2000年06期

3 由红,陈健;改进的频域基音检测算法[J];上海交通大学学报;2001年06期

4 赵建伟,楼红伟,徐大为,刘重庆;噪声环境下的基音检测方法[J];红外与激光工程;2002年01期

5 李香春,杜利民;一种基于多尺度边缘特征提取的基音检测算法[J];电子学报;2003年10期

6 彭辉,宁飞,孔宇;小波的提升方法在基音提取中的应用[J];山东大学学报(理学版);2003年01期

7 楼红伟,赵建伟,胡光锐;一种小波加权的基音检测方法[J];上海交通大学学报;2003年03期

8 朱君波,高瑞华,王守觉;一种基于能量对称度参数的实时基音检测方法[J];声学与电子工程;2003年04期

9 赵晓群,刘颖娜,武睿;基于形态滤波的基音检测新方法[J];通信学报;2004年05期

10 张天骐,张战,权进国,林孝康;语音信号基音检测的二次谱方法[J];计算机应用;2005年04期

相关会议论文 前8条

1 黄鹤;鲍长春;;一种低延时坚韧的基音检测算法[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年

2 林志钢;王长富;戴蓓倩;;基音检测的新方法[A];第二届全国人机语音通讯学术会议论文集[C];1992年

3 尹建琪;张涌;;无限精度语声基音提取[A];第二届全国人机语音通讯学术会议论文集[C];1992年

4 李宝利;景新幸;;小波分析在语音基音检测中的应用[A];中国声学学会2007年青年学术会议论文集(下)[C];2007年

5 关存太;陈永彬;;用编码器实现清浊判别和基音检测[A];第一届全国语言识别学术报告与展示会论文集[C];1990年

6 谢晓桦;谢凌云;;基于曲线拟合系数的汉语声调判别方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

7 胡波;肖熙;;一种新的检测语音端点及基音的概率模型及方法[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

8 刘洪涛;张保轩;;在PC机上实现的汉语话者确认系统[A];第四届全国人机语音通讯学术会议论文集[C];1996年

相关博士学位论文 前1条

1 胡琦;基于计算听觉场景分析的单信道语言分离[D];北京交通大学;2014年

相关硕士学位论文 前10条

1 黄志强;卷积神经网络研究及其在基音检测中的应用[D];内蒙古大学;2015年

2 王春娟;基于多窗谱和均值移动算法的基音检测研究[D];苏州大学;2015年

3 苏红;基于卷积神经网络的鲁棒性基音检测方法研究[D];内蒙古大学;2016年

4 胡瑛;低信噪比下基音检测算法研究[D];中南大学;2007年

5 徐国钰;基于多小波的基音检测法及歌声的客观评价研究[D];广西师范大学;2006年

6 李仕涛;多基音检测算法研究[D];西安电子科技大学;2014年

7 焦蓓;语音信号的基音检测法研究[D];湘潭大学;2013年

8 郑瑞;基音检测算法研究及其在语音合成中的应用[D];南京师范大学;2014年

9 肖春梅;基于基音同步叠加方法的汉语语音合成处理研究[D];昆明理工大学;2014年

10 张营;基音特征提取算法的研究及其在语音门锁中的应用[D];吉林大学;2007年



本文编号:2296036

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2296036.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户25903***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com