卷积神经网络研究及其在基音检测中的应用
本文关键词:卷积神经网络研究及其在基音检测中的应用
更多相关文章: 卷积神经网络 基音检测 语音信号处理 错误反向传播算法
【摘要】:卷积神经网络(Convolutional Neural Network, CNN)是一种源于人工神经网络(Neural Network, NN)的深度机器学习方法,近年来在图像识别领域取得了巨大的成功。CNN由于采用局部连接和权值共享,保持了网络的深层结构,同时又大大减少了网络参数,使模型具有良好的泛化能力又较容易训练。NN的训练算法是基于梯度下降的错误信号反向传播(Back Propagate, BP)算法,CNN的训练算法是BP算法的一种变形。本文从梯度下降的数学推导中总结了NN训练过程中的错误信号传播和权重修改策略,用切割小图训练共权神经网络的方式解释了CNN中的卷积过程,并以特殊卷积的方式解释了CNN的子采样过程,最后将NN的错误信号传播和权重修改策略移植到CNN的训练中。我们将推导出的CNN训练方法用C++编码实现,用CNN应用最早最典型的手写数字识别问题验证被编码的推导过程,得到了正确的效果。语音是人类生产生活中使用最为广泛的一种交流媒介,随着信息技术及移动互联网的发展与普及,语音被广泛用于智能人机交互领域。基音频率是语音信号处理技术中一个非常重要的语音参数。现实生活中,人们往往是在有噪声环境下进行语音交流,常用的基音提取方法在低信噪比环境下效果很差。本文深入分析了神经网络和卷积神经网络,并将其和传统基音检测方法结合,得到CNN_ACF_DP基音检测方法。该方法用ACF对语音文件算出一组基音判决信息,再用CNN算出一组基音判决信息,然后融合两组基音判决信息,最后在融合信息上使用基于语音短时平稳性的动态规划(Dynamic Programming,DP)求出基音序列。我们将CNN_ACF_DP方法与近年国际权威期刊上的PEFAC、Jin方法用相同的数据进行了对比实验。实验结果表明,我们的方法明显优于Jin方法,在某些数据上取得了比PEFAC更优的结果,总体性能与PEFAC方法相近。本文的方法在浊音识别错误率(VDE)和基音识别率(DR)两个指标上都明显优于Jin方法。在随机说话人随机噪声环境下VDE和DR指标略低于PEFAC, DR比PEFAC低1.34%,VDE比PEFAC高2.3%,但是本文方法对训练本文模型所使用的说话人的语音的VDE和DR两个指标都优于PEFAC, DR比PEFAC高0.8%,VDE比PEAFC低9.2%。
【关键词】:卷积神经网络 基音检测 语音信号处理 错误反向传播算法
【学位授予单位】:内蒙古大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3;TP183
【目录】:
- 摘要4-6
- ABSTRACT6-13
- 第一章 引言13-16
- 1.1 研究内容和主要工作14-15
- 1.2 论文组织结构15-16
- 第二章 基音检测的基本理论16-22
- 2.1 语音基础16-17
- 2.1.1 发声系统16-17
- 2.1.2 基音(pitch)17
- 2.2 语音基音检测17-18
- 2.3 常见的基音检测方法18-21
- 2.3.1 自相关函数法18-19
- 2.3.2 平均幅度差法19-20
- 2.3.3 倒谱法20
- 2.3.4 Jin方法20
- 2.3.5 PEFAC方法20-21
- 2.4 本章小结21-22
- 第三章 神经网络与卷积神经网络22-41
- 3.1 神经网络22-31
- 3.1.1 单层感知机24-28
- 3.1.2 单输出多层感知机28-29
- 3.1.3 多输出多层感知机29-31
- 3.2 卷积神经网络31-39
- 3.2.1 卷积神经网络的常用结构32-33
- 3.2.2 卷积与子采样33-34
- 3.2.3 卷积与权值共享34-35
- 3.2.4 CNN训练过程中的三次卷积过程35-38
- 3.2.5 卷积的作用38-39
- 3.3 卷积神经网络实践39-40
- 3.4 本章小结40-41
- 第四章 基于CNN的基音检测系统描述41-50
- 4.1 特征选择41-42
- 4.2 CNN的输出定义42-43
- 4.3 CNN结构描述及训练控制43-45
- 4.4 CNN与ACF融合45-47
- 4.5 动态规划后处理47-49
- 4.6 本章小结49-50
- 第五章 实验及其结论50-56
- 5.1 数据描述50
- 5.2 实验评估50-51
- 5.3 对比实验51-55
- 5.4 后续工作55
- 5.5 本章小结55-56
- 第六章 总结与展望56-57
- 参考文献57-59
- 致谢59
【共引文献】
中国期刊全文数据库 前10条
1 相征;朗朗;王静;;基于基音频能值的端点检测算法[J];安徽工程科技学院学报(自然科学版);2008年03期
2 吕军;马晓娜;;汉语孤立词声韵分割算法的研究[J];安徽师范大学学报(自然科学版);2008年03期
3 王晖;颜靖华;李传珍;蔡娟娟;;音频贝叶斯谐波模型中参数的提取[J];中国传媒大学学报(自然科学版);2007年04期
4 周长锋;韩力群;;概率神经网络在文本无关说话人识别中的应用[J];北京工商大学学报(自然科学版);2007年01期
5 魏丽英;;简析语音编码[J];才智;2010年31期
6 由守杰;柏森;曹巍巍;;鲁棒的DCT域音频盲水印算法[J];重庆邮电大学学报(自然科学版);2008年02期
7 肖菲;陈贺新;许万里;赵岩;;模式匹配和过零率检测的音频差错掩盖[J];吉林大学学报(信息科学版);2011年01期
8 李雨昕;;基于余弦过完备原子库的语音信号MP稀疏分解[J];成都电子机械高等专科学校学报;2011年02期
9 刘潇营;郑郁正;李国良;;多类支持向量机在语音识别中的应用[J];成都信息工程学院学报;2010年01期
10 王昌喜;杨先军;徐强;马祖长;孙怡宁;;基于三维加速度传感器的上肢动作识别系统[J];传感技术学报;2010年06期
中国博士学位论文全文数据库 前10条
1 黄丽霞;非特定人鲁棒性语音识别中前端滤波器的研究[D];太原理工大学;2011年
2 谢春辉;音频隐藏分析方法研究[D];中国科学技术大学;2011年
3 包桂兰;基于EPG的蒙古语标准音协同发音研究[D];内蒙古大学;2011年
4 吕钊;噪声环境下的语音识别算法研究[D];安徽大学;2011年
5 姜涛;网络环境下说话人识别关键技术研究[D];哈尔滨工业大学;2011年
6 肖文斌;基于耦合隐马尔可夫模型的滚动轴承故障诊断与性能退化评估研究[D];上海交通大学;2011年
7 韩志艳;语音信号鲁棒特征提取及可视化技术研究[D];东北大学;2009年
8 高林;育苗生产线气吸式播种系统智能控制的研究[D];北京林业大学;2008年
9 汪云路;语音隐藏分析方法研究[D];中国科学技术大学;2008年
10 钱博;基于汉语元音映射的说话人识别技术研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 刘继芳;基于计算听觉场景分析的混合语音分离研究[D];哈尔滨工程大学;2009年
2 王文姝;基于模糊理论的关键词识别算法研究[D];哈尔滨工程大学;2010年
3 刘维巍;语音信号基音周期检测算法研究[D];哈尔滨工程大学;2010年
4 楼佳;基于网络QoS的AMR语音编码算法研究[D];哈尔滨工程大学;2010年
5 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年
6 朱妹丽;三种篡改情况下的音频鉴定方法研究[D];大连理工大学;2010年
7 周翠梅;说话人识别技术的研究与实现[D];大连理工大学;2010年
8 甄会;欠定盲分离混合矩阵估计方法的研究[D];大连理工大学;2010年
9 张宇;基于倒谱特征的说话人识别方法研究[D];大连海事大学;2010年
10 刘亚玉;限定性文本的语料库自动构建[D];中国海洋大学;2010年
,本文编号:1007432
本文链接:https://www.wllwen.com/kejilunwen/wltx/1007432.html