当前位置:主页 > 科技论文 > 信息工程论文 >

采用长短时记忆网络的低资源语音识别方法

发布时间:2018-03-15 20:09

  本文选题:语音识别 切入点:低资源 出处:《西安交通大学学报》2017年10期  论文类型:期刊论文


【摘要】:针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。
[Abstract]:Aiming at the problem that the recognition rate of speech recognition system drops sharply due to the shortage of training data in low resource environment, In this paper, a LSTM-LRASR method based on LSTM-LRASR is proposed, which uses LSTM-LRASR to construct acoustic model and extract features from LSTM-LRASR. Data expansion and model optimization improve the performance of low resource speech recognition. In feature extraction, we extract high-level robust feature parameters independent of language to reduce the dependence of acoustic model on training data. In the aspect of model optimization, the ability of model to distinguish confusing phoneme is improved by sequential discriminant training technology. The minimum risk Bayesian decoding is used to fuse multiple systems to further improve the recognition performance. The experimental results of OpenKWS16 data evaluation show that, The word-error rate of the low resource speech recognition system based on LSTMLRASR method is 29.9m lower than that of the baseline system, and the cost of the query item weight of all the query words is increased by 60.3%.
【作者单位】: 解放军信息工程大学信息系统工程学院;中国科学技术大学信息科学技术学院;
【基金】:国家自然科学基金资助项目(61673395,61403415,61302107) 河南省自然科学基金资助项目(162300410331)
【分类号】:TN912.34

【相似文献】

相关期刊论文 前10条

1 申建国,王暖臣;语音识别程序的开发与应用[J];计算机应用研究;2000年12期

2 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期

3 邢文;语音识别[J];个人电脑;2000年02期

4 ;语音识别的真相[J];个人电脑;2001年12期

5 ;语音识别渐入佳境[J];个人电脑;2002年03期

6 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期

7 ;语音识别[J];印刷世界;2004年01期

8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期

9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期

10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期

相关会议论文 前10条

1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年

3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年

4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年

6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年

7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年

8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年

9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年

10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年

相关重要报纸文章 前10条

1 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年

2 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年

3 雨夏;语音识别重在应用[N];计算机世界;2001年

4 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年

5 本报记者 操秀英;颜永红:“搜索”语音识别的未来[N];科技日报;2010年

6 本报记者 李映;语音识别飞入寻常百姓家?[N];中国电子报;2012年

7 清华大学 刘加;语音识别应用促进技术发展[N];计算机世界;2006年

8 刘权;OSR提升语音识别率[N];中国计算机报;2004年

9 ;Intel涉足语音识别[N];计算机世界;2003年

10 本报记者 马文方;用互联网思维做语音识别[N];中国计算机报;2013年

相关博士学位论文 前10条

1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年

2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年

3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年

4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年

5 孙f,

本文编号:1616618


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1616618.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a115f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com