资源稀少情况下的语音识别的主动学习方法研究
本文选题:资源稀少 切入点:主动学习 出处:《中国科学技术大学》2017年硕士论文
【摘要】:随着大语种语音识别技术的发展成熟,资源稀少情况下(Low-resource Conditions)的语音识别逐渐成为重要的研究热点。本文针对资源稀少情况下语音识别(小语种识别)建模及优化问题,采用基于主动学习的方法对该领域的一些技术问题展开研究,集中体现在以下两个方面:首先针对声学模型训练数据缺乏导致模型参数估计不准的情况,采用困惑度准则挑选无标注的语音数据参与训练,并进一步在训练过程中采用配套优化方法,使模型估计的参数更加准确;其次,在词典扩充及语言模型增强方面,采用字嵌入(word embedding)算法挑选网络文本数据,用来扩充词典和增加语言模型训练语料,进一步提升识别系统性能。首先,搭建了资源稀少情况下的语音识别系统,采用深度神经网络进行声学建模;针对资源稀少情况下语音识别中专家语言学知识缺乏的困境,采用数据驱动的方式生成问题集进行状态绑定,以获取声学建模中所需的最佳建模状态数(三音子,triphone);针对训练语料不足的现象,通过深度神经网络具有的隐层共享特性,采用大语种训练得到的网络参数初始化目标语种神经网络模型参数。其次,在语音识别的声学建模过程中,需要较多有标注的数据来估计模型参数,对于资源稀少的语种(小语种),有标注的语料数据较少;另一方面,随着数据获取技术的成熟,可以获取大量廉价的无标注语音数据。在节约人工标注成本的前提下,本文采用困惑度准则对大量无标注数据进行有效选择,将筛选得到的无标注数据与原有标注数据一起参与声学模型训练;进一步在模型参数训练过程中,最后一次参数更新只采用有标注数据进行参数调优,明显改善语音识别系统性能。最后,对于资源稀少情况下的语音识别任务,往往会因为词典覆盖率很差而伴随出现大量的集外词,而且用于生成语言模型的文本语料相对较少,因此难以获取涵盖率较好的词典和区分性很强的语音模型,这两个方面都影响着语音识别性能的提升。随着互联网技术的高度发展,很容易从网上获取小语种的大量文本语料数据(web data),关键是如何筛选匹配的数据,本文采用基于word embedding的计算方法从web data中挑选词汇或句子,着手解决词典扩充和语言模型增强的问题,最终达到提升资源稀少情况下语音识别性能的目的。使用上述的改进方法,本文在NIST OpenKWS2015的Swahili语和NIST OpenKWS2016的Georgian语两个数据库上进行了相关实验验证,获得了明显的识别性能提升。
[Abstract]:With the development of large language speech recognition technology, the speech recognition of Low-resource conditions has become an important research hotspot. This paper aims at modeling and optimization of speech recognition (small language recognition) in the case of scarcity of resources. Based on active learning, some technical problems in this field are studied, which are mainly reflected in the following two aspects: firstly, the lack of training data for acoustic model leads to the inaccurate estimation of model parameters. The confusion criterion is used to select the untagged voice data to participate in the training, and the matching optimization method is adopted in the training process to make the parameters of the model estimation more accurate. Secondly, in the aspect of dictionary expansion and language model enhancement, Using word embedding algorithm to select network text data is used to expand dictionary and add language model training corpus to further improve the performance of recognition system. Firstly, a speech recognition system with scarce resources is built. The acoustic modeling is based on deep neural network, and the problem set is generated by data-driven method for state binding in view of the lack of expert linguistic knowledge in speech recognition under the condition of scarce resources. In order to obtain the best number of modeling states (triphoneer) required in acoustic modeling, the hidden layer sharing characteristic through depth neural network can be obtained for the phenomenon of insufficient training data. The neural network parameters of the target language are initialized by the network parameters obtained from the large language training. Secondly, in the acoustic modeling process of speech recognition, more annotated data are needed to estimate the model parameters. On the other hand, with the maturity of data acquisition technology, a large amount of cheap unannotated voice data can be obtained. In the premise of saving the cost of manual tagging, there are few tagged data in small languages (small languages), on the other hand, with the maturity of data acquisition technology, a large amount of unannotated speech data can be obtained. In this paper, the confusion criterion is used to select a large number of unlabeled data, and the unlabeled data is selected to participate in the acoustic model training together with the original tagged data; further, in the process of model parameter training, The last parameter update only uses annotated data for parameter tuning, which obviously improves the performance of speech recognition system. Finally, for speech recognition tasks with scarce resources, Because of the poor coverage of dictionaries, a large number of extrinsic words appear, and the text data used to generate language models are relatively few, so it is difficult to obtain a dictionary with better coverage rate and a speech model with strong distinctiveness. With the rapid development of Internet technology, it is easy to obtain a large amount of text data from small languages on the Internet. The key is how to filter the matching data. In this paper, word embedding based computing method is used to select words or sentences from web data, to solve the problems of dictionary expansion and language model enhancement, and finally to improve speech recognition performance in the case of scarce resources. In this paper, experiments are carried out on the Swahili language of NIST OpenKWS2015 and Georgian language of NIST OpenKWS2016, and the recognition performance is improved obviously.
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 申建国,王暖臣;语音识别程序的开发与应用[J];计算机应用研究;2000年12期
2 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
3 邢文;语音识别[J];个人电脑;2000年02期
4 ;语音识别的真相[J];个人电脑;2001年12期
5 ;语音识别渐入佳境[J];个人电脑;2002年03期
6 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
7 ;语音识别[J];印刷世界;2004年01期
8 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
9 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
10 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
相关会议论文 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
相关重要报纸文章 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
相关博士学位论文 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:1664397
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1664397.html