神经网络时序分类方法在语音识别中的应用研究
发布时间:2020-10-25 01:38
随着人工智能领域研究的深入以及大数据语料的不断积累,语音识别技术得到突飞猛进的发展,神经网络开始大规模应用于语音识别技术,端到端语音识别成为近年来人工智能研究的热点课题。然而,由于特定说话人含有不同发音特性、不同语种发音特性不同等原因,导致端到端语音识别模型对中文的识别准确率偏低。基于以上背景,本文结合中文语言模型对现下主流端到端语音识别框架的结构进行研究和改进,以提高端到端语音识别框架对于汉语的识别准确率和效率。首先,本文设计基于传统隐马尔科夫-混合高斯声学模型结合词典和N-gram语言模型的建模方法作为本文的基线实验。在对隐马尔科夫-混合高斯模型的研究中,对语音信号易于受到上下文内容影响的问题,设计利用上下文相关的三音素声学模型,通过考虑每一音素相邻的前后音素,进而提升模型性能。同时,对语音易受到说话人发音特性影响的问题,设计融合说话人自适应技术的隐马尔科夫-混合高斯模型的建模方式,以提高本文基线实验的识别准确率。其次,本文针对端到端框架对中文识别准确率较低的问题,提出结合语言模型的非完全端到端框架的语音识别方法,将非完全端到端框架应用于神经网络时序分类方法对语音识别的研究中。针对LSTM-CTC端到端模型计算复杂度高,训练速度耗时过长的问题,本文提出了一种改进的映射长短期记忆时序网络,用以优化模型的训练速率。同时针对语音特征的长时依赖性并不只有正向传播的特点,在端到端模型中设计采用双向映射长短期记忆时序网络,替代固有的单向长短期记忆时序网络,通过对语音特征进行双向提取,从而提高模型的准确率。最后,选取希尔贝壳公司的AISHELL语音数据库对本文所提出的方法进行实验验证,针对实验过程中双向神经网络训练易产生过拟合的问题,将语音数据库通过速度扰动技术进行扩充、实验。最终实验结果显示,模型的准确率和速率较基线实验结果都得到显著提升。
【学位单位】:东北石油大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34
【部分图文】:
语音识别基本原理图
神经元示意图
前馈神经网络结构图
【参考文献】
本文编号:2855267
【学位单位】:东北石油大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TN912.34
【部分图文】:
语音识别基本原理图
神经元示意图
前馈神经网络结构图
【参考文献】
相关期刊论文 前6条
1 张湘莉兰;骆志刚;李明;;Merge-Weighted Dynamic Time Warping for Speech Recognition[J];Journal of Computer Science and Technology;2014年06期
2 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[J];声学技术;2013年S1期
3 贺玲玲;周元;;基于改进MFCC的异常声音识别算法[J];重庆工商大学学报(自然科学版);2012年02期
4 阙大顺;赵永安;文先林;李蓓;;基于DHMM和VQ的关键词识别系统研究[J];武汉理工大学学报;2011年02期
5 马婉婕;孙虎元;孙立娟;孙晓光;;基于神经网络集成的手写识别系统[J];计算机应用与软件;2009年08期
6 曾国荪;改善神经网络反向传播算法的训练时间[J];小型微型计算机系统;1996年11期
本文编号:2855267
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2855267.html