基于深度学习的孤立词语音识别系统设计
本文关键词:基于深度学习的孤立词语音识别系统设计 出处:《东北电力大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 语音识别 声学特征 深度学习 深度自动编码器
【摘要】:在人与人之间的自然对话中,语音对话是被使用最频繁的一种交流方式,因为它是最直接、最方便的一种表达方式。那么在人工智能领域中,语音识别也就成为了人机交互技术里最重要的部分之一,并随着现代科技的发展,各类语音识别软件逐步融入人们的生活,例如智能手机的语音拨号、发短信、查询等,以及汽车上的一些语音控制设备。在如今的互联网时代里,获得大量的语音数据已不成问题,那么如何高效的利用这些未经标注的而且大量的语音数据,就成为了当前语音识别领域的一个研究热点。与此同时,深度学习模型对数据有着强大的建模能力,并能直接对未标注的原始数据进行预处理,这就使其与语音识别的联系越来越紧密。在此背景下,本文以语音识别理论为基础,针对如何将深度学习理论应用于语音识别中这一问题展开研究,最后在此研究上设计了一个孤立词语音识别系统,主要有以下内容。(1)根据语音识别基本原理,在Matlab环境下,编程搭建一个非特定人的孤立词语音识别系统框架,这个系统框架中主要包括语音信号预处理、特征提取、基于HMM声学模型的训练和解码搜索这四个部分。实验中用训练库中语音数据,以提取传统的声学特征(MFCC)为基本特征,训练出基于HMM声学模型的模板库,再结合测试库中的语音数据进行解码搜索,检测此识别系统的识别率,并以此得到了一个合适的声学模型参数,以便下来的试验。(2)以深度学习为基础理论,提出了一种升维式的堆栈式深度自动编码器模型,利用此模型提取新的深层语音特征。并分别从网络的隐含层层数、各层节点数、各层节点的激活函数、有监督和无监督训练方式等多个方面构建深度自动编码器模型及其在语音特征提取中的具体应用。实验证明,新的深层特征比原始MFCC特征,使识别系统在词识别正确率和时间方面都有所提高,这就证明了深度学习模型在特征提取上对提高语音识别正确率的有效性。(3)本文基于以上研究成果,在Labview平台上对上述所研究的基于深度学习的孤立词语音识别系统进行了系统设计,其功能包括录音、播放、训练和识别。其中为了语音系统的识别正确率能达到95%以上,对模板库进行改进,设计为特定人的模板库,即在进行识别时,选择与个人对应的模板库对其语音进行解码搜索以得到识别结果。
[Abstract]:Between people and natural dialogue, dialogue is a way of communication is the most frequently used, because it is the most direct, an expression of the most convenient way. So in the field of artificial intelligence, speech recognition has become a human-computer interaction technology, the most important part of the one, and with the development of the modern science and technology, all kinds of voice recognition software gradually into people's lives, such as intelligent mobile phone voice dialing, texting, query, some voice control equipment and automobiles. In today's Internet era, get a large amount of speech data is not a problem, so how to efficiently utilize these data without voice but a lot of annotation, has become a hot research topic in the field of speech recognition. At the same time, deep learning model has a strong ability of data modeling, and can directly to the original unlabeled data into The pretreatment, which makes it more and more closely linked with speech recognition. Under this background, this paper is based on the theory of speech recognition, aiming at how deep learning theory is applied to the problem of speech recognition research, then research on the design of a speech recognition system, the main contents are as follows. (1) according to the basic principle of speech recognition, in the Matlab environment, the framework of speech recognition system programming to build a non specific people, the framework of the system includes voice signal preprocessing, feature extraction, the four part of the HMM acoustic model training and decoding search based on voice data in the training set. By experiment in order to extract acoustic features, the traditional (MFCC) as the basic characteristics of the training HMM acoustic model based on template library, combined with voice data test library for decoding search, detection of the identification systems of knowledge Don't rate, and thus a suitable acoustic model parameters, in order to test down. (2) with deep learning theory, puts forward a type of stack depth sunwy autocoder model, extraction of speech features new using this model. And from the network hidden layer number. The number of nodes in each layer, the activation function of nodes in each layer, and its application in speech feature extraction in the construction of many aspects of depth auto encoder model supervised and unsupervised methods. Experiments show that the new deep feature than the original MFCC feature, the recognition system can improve word recognition accuracy and time., which proves the validity of deep learning model accuracy to improve speech recognition in feature extraction. (3) this paper based on the above research results, based on the Labview depth study of isolated word learning based on the above research The speech recognition system is designed, its functions including recording, playback, training and recognition. In order to speech recognition system accuracy can reach more than 95%, the template library was improved, designed for specific template library, namely in the identification, selection and individual corresponding template library to decode the search in order to get the speech recognition results.
【学位授予单位】:东北电力大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34
【相似文献】
相关期刊论文 前10条
1 徐霄鹏,吴及,刘庆升,黄文浩;孤立词语音识别算法性能研究与改进[J];计算机工程与应用;2001年21期
2 李挺;孤立词语音识别系统的一种实用精简算法[J];江南大学学报;2003年02期
3 邝航宇;张军;季飞;韦岗;;一种基于联合得分的孤立词语音识别系统[J];计算机工程;2006年10期
4 张晨燕;孙成立;;非特定人孤立词语音识别系统的片上实现[J];计算机工程与应用;2007年13期
5 马莉;党幼云;;特定人孤立词语音识别系统的仿真与分析[J];西安工程科技学院学报;2007年03期
6 姚徐;李永宏;单广荣;于洪志;;藏语孤立词语音识别系统研究[J];西北民族大学学报(自然科学版);2009年01期
7 刘丽媛;严家明;;一种孤立词语音识别的实现方法及改进[J];现代电子技术;2010年16期
8 孙行伟;贾春梅;;基于孤立词语音识别定位系统的研究与设计[J];宁波工程学院学报;2010年03期
9 朱淑琴;魏威;;基于神经网络的汉语孤立词语音识别[J];微计算机信息;2012年09期
10 孙光民,董笑盈;基于神经网络的汉语孤立词语音识别[J];北京工业大学学报;2002年03期
相关会议论文 前7条
1 丁国宏;李成荣;徐波;;非特定人孤立词语音识别系统在定点DSP上的实现[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 李峰;浦剑涛;李成荣;;基于声韵母建模基元拼接和整词识别的非特定人孤立词语音识别系统的研究[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
3 郭莉莉;王迪;常玲;;基于DSP的孤立词语音识别系统在汽车导航中的应用[A];第十一届沈阳科学学术年会暨中国汽车产业集聚区发展与合作论坛论文集(信息科学与工程技术分册)[C];2014年
4 李明;王之禹;温源;侯震;俞铁城;;一种高效的非特定人孤立词识别方法[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
5 刘金伟;黄樟钦;侯义斌;;基于SoC的孤立词语音识别算法的C语言仿真[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
6 张歆奕;卢敦陆;张有为;;基于DSP芯片的语音控制指令识别最小系统[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
7 林波;吕明;;基于DTW改进算法的孤立词识别系统的仿真与分析[A];第八届全国人机语音通讯学术会议论文集[C];2005年
相关硕士学位论文 前10条
1 杨泉清;Android平台孤立词语音识别算法研究与实现[D];湖南科技大学;2015年
2 李荣松;基于HMM的非特定人孤立词语音识别[D];中国民航大学;2011年
3 周慧琼;基于深度学习的孤立词语音识别系统设计[D];东北电力大学;2017年
4 程晓伟;非特定人孤立词语音识别算法研究与实验分析[D];中国地质大学(北京);2009年
5 卞洁;非特定人孤立词语音识别系统若干关键技术的研究[D];大连理工大学;2005年
6 郭秋雨;小词汇量非特定人的孤立词语音识别系统研究[D];中国海洋大学;2010年
7 李建宁;汉语孤立词语音识别的研究与实现[D];西北大学;2007年
8 时晓东;孤立词语音识别系统设计研究[D];浙江大学;2006年
9 李宏言;小词汇量汉语孤立词语音识别的理论与技术研究[D];中南大学;2006年
10 路娜;孤立词语音识别系统的研究与设计[D];曲阜师范大学;2014年
,本文编号:1358060
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1358060.html