当前位置:主页 > 科技论文 > 网络通信论文 >

语音自动识别技术及其在电信彩铃业务中的应用研究

发布时间:2018-06-11 11:04

  本文选题:语音识别 + 隐马尔可夫模型 ; 参考:《西安电子科技大学》2014年硕士论文


【摘要】:语音识别技术(Automatic Speech Recognitio n)又称ASR技术,它是一种将人声语音信号转化为可以被计算机程序识别的文字信息,从而识别、了解讲话人所发出指令和意图的技术。语音识别技术的终极目标是实现机器与人之间可通过自然语言进行互动。二十世纪五十年代,美国电话电报公司(ATT)贝尔实验室里建成第一台语音识别系统——Audry系统,它仅能识别十个英文数字。上世纪八十年代末期,数字信息技术、计算机软硬件技术的发展掀起前所未有的高潮,为语音识别的研发带来坚实的技术支撑。语音识别技术在商业领域首先得以应用,并迅速扩展到社会生产和生活的每一领域,自身也受到不断更新的技术的要求。本文首先在第一章简要介绍国内外语音识别技术的发展现状。其次,从ASR技术的基本模型方面,介绍了端点检测、预处理、模块生成、模块匹配和模块管理等环节中的模式识别和数字信号处理的原理。本文通过分析和研究语音识别技术的发展历程,分别通过HMM(隐马尔科夫模型)和DTW(动态时间规正法)设计汉语语言的语音识别系统。HMM具有较强的时间序列建模能力,对时间进行特征参数的训练,每个语音对应自己的隐马尔科夫模型,语音与隐马尔科夫模型进行对应匹配,完成识别过程。HMM通常适用在需要识别大词汇量的情况。DTW能够很好的处理语音信号特征参数的时间长短不同性问题,具有识别速度快、系统费用少和有效的小词汇量处理作用。每节结尾都通过Matlab进行仿真,并提供脚本。最后对整个彩铃语音识别平台的系统进行了系统的介绍。彩铃语音识别平台通过运用声动炫铃系统中的IVR架构设计技术,并结合语音识别和语音合成等语音领域的关键技术,采用voice xml标准语言工具研发的一个应用系统。用户通过输入一个特定的号码进入服务器,用语音或者按键选出歌手名或者歌曲的形式传输给系统命令,就能获得自己定制彩铃。通过采用专用的语言界面,方便用户的操作过程,主要使用VXML技术实现电话流程。彩铃语音识别系统还设有彩铃语音识别平台场景及脚本代码。
[Abstract]:Automatic speech recognition (ASR) is a technology that converts speech signals into text information that can be recognized by computer programs, so as to recognize and understand the instructions and intentions issued by speakers. The ultimate goal of speech recognition technology is to realize the interaction between machines and people through natural language. In the 1950s, AT & T Bell Labs built the first speech recognition system, the Audry system, which recognized only ten English numbers. In the late eighties of last century, the development of digital information technology, computer software and hardware technology set off an unprecedented climax, which brought solid technical support for the research and development of speech recognition. Speech recognition technology has been first applied in the commercial field, and has been rapidly extended to every field of social production and life. It is also subject to the requirements of constantly updated technology. In the first chapter, this paper briefly introduces the development of speech recognition technology at home and abroad. Secondly, from the basic model of ASR technology, the principles of pattern recognition and digital signal processing are introduced, such as endpoint detection, preprocessing, module generation, module matching and module management. By analyzing and studying the development of speech recognition technology, this paper designs the speech recognition system of Chinese language by hmm (Hidden Markov Model) and DTW (dynamic time normalization method), respectively. Each speech has its own Hidden Markov Model, and the speech and Hidden Markov Model are matched. The completion of the recognition process. Hmm is usually applicable to the need to identify large vocabulary. DTW can deal with the different time of speech signal feature parameters well. It has the advantages of fast recognition, low system cost and effective small vocabulary processing. The end of each section is simulated by Matlab, and the script is provided. Finally, the system of CRBT speech recognition platform is introduced systematically. The platform of color ring tone recognition adopts voice xml standard language tool to develop an application system, which is based on the design technology of voice xml architecture, and combined with the key technologies in speech field such as speech recognition and speech synthesis. By entering a specific number into the server and selecting the singer's name or song by voice or keystroke to transmit to the system command, the user can obtain his own custom color bell. By using a special language interface to facilitate the user's operation process, the main use of VXML technology to achieve the telephone flow. The CRBT speech recognition system also has the scene and script code of CRBT speech recognition platform.
【学位授予单位】:西安电子科技大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.34

【相似文献】

相关期刊论文 前10条

1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期

2 邢文;语音识别[J];个人电脑;2000年02期

3 ;语音识别的真相[J];个人电脑;2001年12期

4 ;语音识别渐入佳境[J];个人电脑;2002年03期

5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期

6 ;语音识别[J];印刷世界;2004年01期

7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期

8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期

9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期

10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期

相关会议论文 前10条

1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年

3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年

4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年

6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年

7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年

8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年

9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年

10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年

相关重要报纸文章 前10条

1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年

2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年

3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年

4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年

5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年

6 雨夏;语音识别重在应用[N];计算机世界;2001年

7 ;语音识别企业应用前景光明[N];计算机世界;2003年

8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年

9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年

10 张彤;语音识别融入统一通信[N];网络世界;2008年

相关博士学位论文 前10条

1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年

2 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年

3 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年

4 孙f,

本文编号:2004969


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2004969.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户115a4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com