基于深层神经网络的口语识别算法优化研究
发布时间:2020-03-31 08:48
【摘要】:当前,对语音识别的研究已经越来越深入,采取的方法也是逐渐多元化。目前大多数语音信号分析利用了语音信号的频谱特征,通过一系列转换提取特征,训练出识别模型。但从另一方面思考,语谱图作为语音信号最直观的表达,不仅包含了频谱信息,还包含了基频、共振峰及其变化趋势,这些趋势组成的纹理可以表征出语音的音调、重音等发音特征信息,经验丰富的语音学专家甚至可以通过一张语谱图估计出其代表的文字含义。基于上述条件,可将语音信号的语谱图作为特征提取的一个输入,利用图像处理领域中较为成熟的特征提取及模型训练方法,对语谱图进行处理,探索语音信号处理和图像处理相结合的新领域。研究了基于脉冲耦合神经网络(PCNN)的发音优劣分类方法,探索将语谱图作为语音识别模型特征的可行性。收集了600个标准度层面的正负样本,将经过短时傅里叶变换生成的孤立词语谱图像作为特征输入,然后进一步地在特征层面和结果层面融合MFCC特征,送入支持向量机分类器进行优劣分类。实验结果表明,当特征含有语谱图时,使用PCNN可获得85%以上的识别准确率,比仅仅使用频谱特征准确率更高;当将图像特征与语音频谱特征相融合时,可获得更好的识别准确率,且基于识别结果投票重估的融合方法要优于基于特征输入的融合方法;以语谱图作为模型特征的突破点是可行的。研究了结合语谱图和卷积神经网络的非特定人发音评价方法。提出了结合宽带语谱图和窄带语谱图进行特征预处理的方法,其中窄带语谱图用于基频和谐波分析以完成端点检测,刨除无效的非语音段;宽带语谱图用于分隔出不同的纹理,以此实现音位级别的分割,创造出以音位为单位的有标签数据,该策略的分割准确率约为88%左右。然后将处理好的二维特征矩阵送入七层卷积神经网络中进行训练。实验表明,卷积神经网络对于音位语谱图的识别精度总体较良好,实际精度与谱图的分割预处理效果成正相关关系,不同的音位由于其本身发音特点不同可达到不同的识别效果,所有音位的总体识别准确率约为83%。
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP183;TN912.34
本文编号:2608850
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP183;TN912.34
【参考文献】
相关期刊论文 前10条
1 孙凤兰;胡加圣;;国内外CALL研究概论及其学科化发展趋势[J];现代教育技术;2014年06期
2 严可;魏思;戴礼荣;刘庆峰;;基于音素相关后验概率变换的发音质量评价[J];清华大学学报(自然科学版);2011年09期
3 张晴晴;潘接林;颜永红;;基于发音特征的汉语普通话语音声学建模[J];声学学报;2010年02期
4 余建潮;张瑞林;;基于MFCC和LPCC的说话人识别[J];计算机工程与设计;2009年05期
5 刘琨;金文标;;基于PCNN和RBF的孤立词语音识别研究[J];计算机工程与设计;2008年24期
6 安国平;姜长生;吴庆宪;;基于PCNN和SVM的图像识别方法研究[J];电光与控制;2008年10期
7 詹新明;黄南山;杨灿;;语音识别技术研究进展[J];现代计算机(专业版);2008年09期
8 梁泽;马义德;张恩溯;朱望飞;汤书森;;一种基于脉冲耦合神经网络的语音情感识别新方法[J];计算机应用;2008年03期
9 张晓俊;陶智;施晓敏;顾济华;;改进脉冲耦合神经网络的语音识别研究[J];计算机工程与应用;2007年08期
10 陈向民;张军;韦岗;;基于语谱图的语音端点检测算法[J];电声技术;2006年04期
相关博士学位论文 前1条
1 严可;发音质量自动评测技术研究[D];中国科学技术大学;2012年
,本文编号:2608850
本文链接:https://www.wllwen.com/kejilunwen/wltx/2608850.html