自助语音识别流程编辑器的设计与实现
本文选题:交互式语音应答 + 流程编辑器 ; 参考:《电子科技大学》2015年硕士论文
【摘要】:语音识别技术,在2012年发生重大突破,由深层神经网络(DNN)取代高斯分配以描述语音特征。学术界公认提高了30%的辨识成功率,引发以语音识别为基础的各项自助服务在国内快速兴起。其中以智能语音导航IVR为主,包括工商银行、中信银行、平安银行、交通银行、浦发银行、中荷人寿等知名企业。然而许多项目未能达到预期目标,与欧美及日本地区的普遍流行及认同无法相比。其中主要原因为国内厂商太过倾向于识别率的高低,忽略了语音界面设计,以至于不被用户认同。在自助语音服务中,语音界面(VUI)扮演的角色,和网络服务中图形界面(GUI)的角色相同,如果语音界面设计不佳,用户很快就会失去耐心,直接要求转人工服务或者挂断电话,不管企业的自助服务内容多么丰富有效。在传统的IVR系统中,业务逻辑实现是根据不同的IVR系统进行编写的,存在以下缺点:移植性、灵活性差,在实际系统上做应用开发的难度很大,特别是涉及到话音流程的编写及调试问题,无法综合利用现有的web资源。为了缩短交互式语音应答(IVR:Interaction Voice Response)系统流程开发周期,降低传统IVR系统中业务逻辑编写的困难,方便快捷地设计出优秀语音界面,从这三方面角度提出设计以Voice-XML为开发语言并可以降低开发工作的脚本编辑器,专用于设计流程界面设计。本文设计的流程编辑器,在结构设计上,分为用户界面层、业务功能层、基础功能层3个层面。在用户界面提供菜单栏、工具栏、绘图栏、项目栏、日志栏、属性栏及节点栏。业务功能层功能上则是分为项目管理模块、工具箱模块、文件管理模块、编辑属性模块和窗口功能模块。在基础功能层提供第三方数据库、数据存储、节点模型、界面开发、事件监听的功能。工具包以swing组件为基础,分为顶层、中间及基本组件3类。在流程定义中,以图元为基础,把可能采用的业务节点以图元表示,向用户提供的是流程中核心流程节点控件。用户通过拖拽图形所表示的流程节点到绘制区域,填写每个相应流程节点的属性信息,然后使用带箭头的连线来连接两个流程节点即可快速完成流程编辑。最后生成目标文件Voice-XML,即可运用到IVR中进行顺利运行。此编辑器的实现节省了Voice-XML的脚本开发时间,提高了整体流程的开发效率。在测试阶段,也对各功能的实现进行了测试运行,验证了各功能的可操作性。
[Abstract]:Speech recognition technology, a major breakthrough in 2012, was replaced by a deep neural network (DNNN) to describe speech features. It is recognized that the success rate of recognition is increased by 30%, which leads to the rapid rise of self-service based on speech recognition in China. In which intelligent voice navigation IVR, including ICBC, CITIC Bank, Ping an Bank, Bank of Communications, Pudong Development Bank, China and Netherlands Life Insurance and other well-known enterprises. However, many projects have fallen short of expectations and are not comparable to the widespread popularity and acceptance in Europe, the United States and Japan. The main reason is that the domestic manufacturers are too inclined to the recognition rate, ignoring the design of the speech interface, so that they are not recognized by the users. In a self-service voice service, the voice interface (VUI) plays the same role as the graphical interface (GUI) in the network service. If the voice interface is not well designed, the user will quickly lose patience and ask directly for a manual service or hang up the phone. No matter how rich and effective the enterprise's self-service content is. In the traditional IVR system, the business logic implementation is written according to different IVR systems, which has the following shortcomings: portability, flexibility is poor, and it is very difficult to do application development on the actual system. Especially, it is difficult to make comprehensive use of existing web resources because of the writing and debugging of voice flow. In order to shorten the development cycle of interactive voice response Voice response (IVR: interaction Voice response) system and reduce the difficulty of business logic writing in traditional IVR system, the excellent speech interface is designed conveniently and quickly. From these three aspects, a script editor with Voice-XML as the development language and which can reduce the development work is put forward, which is specially used in the design process interface design. The process editor designed in this paper is divided into three layers: user interface layer, business function layer and basic function layer. Provides menu bar, toolbar, drawing bar, project bar, log bar, properties bar, and node bar in the user interface. The function of business function layer is divided into project management module, toolbox module, file management module, edit attribute module and window function module. Provides third party database, data storage, node model, interface development, event monitoring in the basic function layer. The toolkit is based on swing components and is divided into three categories: top level, intermediate and basic components. In the process definition, based on the graph element, the possible business node is represented by the graph element, and the core process node control is provided to the user. Users drag and drop the process nodes represented by the graph to the drawing area, fill in the attribute information of each corresponding process node, and then connect the two process nodes with arrows to complete the process editing quickly. Finally, the target file Voice-XML is generated, which can be used in IVR to run smoothly. The implementation of this editor saves Voice-XML script development time and improves the overall development efficiency. In the test stage, the realization of each function is also tested and run, which verifies the operability of each function.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP311.52;TN912.34
【相似文献】
相关期刊论文 前10条
1 高玉清;;手机语音导航业务即将落地[J];互联网天地;2005年10期
2 王柏君;Amelie;;手掌上的指南针——联通CDMA语音导航[J];时尚旅游;2007年10期
3 刘玉宝;孙爱民;李纯莲;祝海英;;盲用语音导航自动化考试系统的研究与实现[J];武汉理工大学学报;2009年08期
4 宋海晨;肖瑛;李齐齐;;校园资讯语音导航平台设计[J];数字通信;2012年05期
5 孙慧;联通手机语音导航助你畅游天下[J];通信世界;2005年36期
6 刘小夯;看联想电脑[J];中国计算机用户;1998年11期
7 张东;胡文学;刘爱龙;杨学伟;;嵌入式车载语音导航仪设计与实现[J];西安工程科技学院学报;2006年02期
8 何川;;阳光V3.5:盲人的阳光系统[J];互联网天地;2005年S1期
9 林丽华;;为百度地图手工扩充语音导航数据包[J];电脑迷;2012年21期
10 赵文韬;;“话王98”有耳有嘴 识别率85%速度每分钟150字[J];每周电脑报;1998年19期
相关会议论文 前4条
1 徐珠宝;许勇;杨军;;盲人语音导航模块的编程实现[A];中国声学学会2009年青年学术会议[CYCA’09]论文集[C];2009年
2 许培飞;;从客户感知出发提升电信10000号语音导航系统便捷性[A];2007中国科协年会——通信与信息发展高层论坛论文集[C];2007年
3 刘巧莲;都萌;荆莹;汪磊;;车载自然语音导航系统构建初探[A];2007第三届中国智能交通年会论文集[C];2007年
4 梁哲炜;宋小波;赵卫国;刘任任;;基于XML的盲用浏览器设计与实现[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
相关重要报纸文章 前10条
1 綦悠悠;黑龙江联通“手机导航”便民出行[N];人民邮电;2006年
2 中国消费者报 武晓黎;用手机给你语音导航[N];中国消费者报;2005年
3 ;飞利浦消费通讯再推新品[N];科技日报;2000年
4 本报记者 税敏;独立导航VS服务器端导航[N];网络世界;2005年
5 通讯员 张玉斌;推出多项特色服务[N];人民邮电;2003年
6 曾;飞利浦989手机上市[N];计算机世界;2000年
7 记者 王岩;易腾迈推出高科技新品[N];现代物流报;2006年
8 ;联信志诚 我的通信我选择[N];中国计算机报;2009年
9 记者 周娜;联通推出语音导航业务欲挑战传统车载GPS[N];民营经济报;2006年
10 本报记者 刘益广 通讯员 广华 沈柳;“熊猫”一技术让盲人耳听八方[N];市场报;2005年
相关硕士学位论文 前6条
1 夏兵朝;动物机器人的语音导航与精细控制方法研究[D];浙江大学;2015年
2 熊玮;自助语音识别流程编辑器的设计与实现[D];电子科技大学;2015年
3 王淑华;基于PDA的语音导航系统相关技术研究与实现[D];江西师范大学;2007年
4 田露;视障大学生心理测试系统的设计与实现[D];电子科技大学;2012年
5 王旭旭;承德市农业专家语音服务系统设计与实现[D];电子科技大学;2010年
6 许家昌;电气工程师PDA公式处理与资料查询设计与实现[D];安徽理工大学;2009年
,本文编号:1800623
本文链接:https://www.wllwen.com/kejilunwen/wltx/1800623.html