语音识别中深度神经网络目标值优化
发布时间:2017-06-02 22:14
本文关键词:语音识别中深度神经网络目标值优化,由笔耕文化传播整理发布。
【摘要】:训练深度神经网络声学模型时,所采用的强制对齐得到的目标值存在无法精准地表示出语音实际状况的问题。针对这一问题,提出一种利用前后向算法得到非0-1分布目标值的方法。由于用于强制对齐的模型可能与处理语句不完全匹配,以及发音连续性导致的过渡边界难以分离等问题,强制对齐得到的目标值存在不合理性。新的目标值可以表示某一帧以一定概率属于邻近各状态的分布情况,更详细地描述建模单元之间的过渡,进一步还原语音的原貌,提升模型的鲁棒性。同时,为寻求模型鲁棒性和建模单元区分度之间的平衡,对算法得到的目标值进行加窗处理。在中文客服问答领域进行实验,在小数据量上验证了目标值对于训练的较大影响,并且选取窗长宽度这一参数。最后将训练数据量提升至60、80以及100 h,结果显示,新的目标值优化方法训练得到的模型在识别性能上获得提升,相对字错误率下降为1.10%~3.65%。多组实验验证新的目标值优化方法对模型训练有一定效果,在训练数据量上升的情况下依然具有有效性。
【作者单位】: 中国科学院语言声学与内容理解重点实验室;
【关键词】: 语音识别 深度神经网络 前后向算法 目标值优化
【基金】:国家自然科学基金资助项目(11161140319;91120001;61271426) 中国科学院战略性先导科技专项项目(XDA06030100;XDA06030500) 国家“863”计划资助项目(2012AA012503) 中科院重点部署项目资助(KGZD-EW-103-2)
【分类号】:TN912.34
【正文快照】: 语音识别的研究可以追溯到20世纪50年代。过去,主流的声学建模方法是基于混合高斯的隐马尔可夫模型(gaussian mixture model-hidden markovmodel,GMM-HMM)。发展至今,人工神经网络(arti-ficial neural network,ANN),因其强大的非线性关系表达能力,已逐步取代GMM。随着近年来机
【相似文献】
中国重要会议论文全文数据库 前1条
1 王德彰;荒井一嘉;落合裕晶;;气动EGR阀目标值追踪控制开发[A];2013中国汽车工程学会年会论文集[C];2013年
中国重要报纸全文数据库 前10条
1 首席记者 于航;主要工作目标实现“双过半”[N];牡丹江日报;2007年
2 郑晓波;国资委完善央企负责人业绩考核计分规则[N];证券时报;2008年
3 记者 杨世s,
本文编号:416651
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/416651.html