当前位置:主页 > 科技论文 > 网络通信论文 >

基于加权有限状态机的动态匹配词图生成算法

发布时间:2018-09-05 17:14
【摘要】:由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。
[Abstract]:Because the existing weighted finite state machine (WFST) decoding networks do not have accurate endings, the existing word graph generation algorithms do not contain accurate word end time points, or only state, phoneme level word images, which can not be applied to keyword retrieval. A speech recognition word graph generation algorithm based on WFST static decoder is proposed in this paper. In this paper, the convertible relation between WFST decoded phoneme graph and word graph is analyzed theoretically, and then the dynamic phoneme matching method of dictionary is proposed to solve the problem of word end point alignment in WFST network. Finally, the word graph is generated by the traversal method of token passing. At the same time, considering the computational optimization, a pruning algorithm is introduced in the token passing process, which makes the conversion time of phoneme graph less than 3 times of decoding time. The obtained word graph can not only be used for rescoring the language model, but also can be directly applied to keyword retrieval system because of the precise time point of the end of the word. The experimental results show that the algorithm has a high computational efficiency and contains more decoding information than the word graph of the existing dynamic decoders. Better performance can be obtained in rescoring and keyword retrieval of large vocabulary continuous speech recognition.
【作者单位】: 中国科学院语言声学与内容理解重点实验室;
【基金】:国家自然科学基金(10925419,90920302,61072124,11074275,11161140319,91120001,61271426) 中国科学院战略性先导科技专项(XDA06030100,XDA06030500) 国家863计划项目(2012AA012503) 中科院重点部署项目(KGZD-EW-103-2)资助课题
【分类号】:TN912.34;TP301.1

【参考文献】

相关期刊论文 前1条

1 张鹏远;韩疆;颜永红;;关键词检测系统中基于音素网格的置信度计算[J];电子与信息学报;2007年09期

【共引文献】

相关期刊论文 前4条

1 郭洪禹;赵晓群;黄冬梅;;基于特定位置后验概率网格的开集语音文档检索[J];燕山大学学报;2013年04期

2 刘晓明;冯晓荣;班超帆;;基于动态点阵匹配算法的二阶关键词识别[J];吉林大学学报(工学版);2012年03期

3 熊于菽;冉晟伊;冯晓荣;;一种改进的二阶M-KWS关键词识别方法[J];科技通报;2012年04期

4 飞龙;高光来;闫学亮;王炜华;;基于分割识别的蒙古语语音关键词检测方法的研究[J];计算机科学;2013年09期

相关博士学位论文 前2条

1 飞龙;蒙古语语音关键词检测技术的研究[D];内蒙古大学;2013年

2 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年

【相似文献】

相关期刊论文 前10条

1 林涛;关于AV的问答——兼谈用惠威器材搭配高档家庭影院[J];音响技术;1997年03期

2 李颖华 ,蔡超时 ,宋宜纯;DSP实现调频高速数据广播解调——软件无线电的解码器方案[J];世界电子元器件;1999年11期

3 欧柳;集成有音频DSP的高级DVD解码器——ZiVA-3解码器[J];世界电子元器件;1999年05期

4 林景云,郭严;卫星数字加扰收费电视的技术实践(下)[J];影视技术;2000年11期

5 丘世斯;;帝曼DM3000影音中心印象[J];家庭影院技术;2000年06期

6 张煦;VoIP──话音按IP规约传送[J];现代通信;2001年10期

7 ;工薪发烧友精打细算 鱼和熊掌兼得玩升级[J];家庭影院技术;2002年11期

8 周大山,李华,张淑芳,侯玲,邓宇;AVS-M视频解码器设计和实现[J];电视技术;2005年08期

9 张朝柱;李大鹏;赵春晖;;一种空时分组码信道估计联合符号检测算法[J];弹箭与制导学报;2005年S9期

10 本刊编辑部;;CYRUS最新旗舰级分体式CD播放机 CD Xt转盘和DAC X解码器[J];视听技术;2006年07期

相关会议论文 前10条

1 梁烽;;应用自动语音识别技术实现通信增值业务[A];广西计算机学会2005年学术年会论文集[C];2005年

2 聂明新;王金昊;;DSP技术在手机语音识别中的应用[A];第九届全国青年通信学术会议论文集[C];2004年

3 俞斯乐;王承宁;李华国;澄明;;数字高清晰度电视信源解码器的设计与研制[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年

4 张红;黄泰翼;;通向现实世界之路——基于自动语音识别系统的广播电视新闻自动记录系统[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

5 黄超;黄泰翼;陈道文;;时长信息约束的HMM在语音识别中的应用[A];第四届全国人机语音通讯学术会议论文集[C];1996年

6 周永安;纳俊德;;家用杜比模拟解码器在电影杜比模拟立体声还音上的应用研究[A];中国电影电视技术学会影视科技论文集[C];2003年

7 朱瑞贤;陈行益;;IMS架构中媒体服务器的实现[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年

8 周梁;高鹏;丁鹏;徐波;;语音识别准确率与检索性能的关联性研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

9 王娅;许凯华;刘玉华;;WSN中一种基于能量的层次型拓扑生成算法[A];2006全国复杂网络学术会议论文集[C];2006年

10 李明;雷峗;刘建;颜永红;;一种基于内容的音频水印算法[A];2006年声频工程学术交流会论文集[C];2006年

相关重要报纸文章 前10条

1 上海 殷协;利用二手功放内置解码器作音源解码[N];电子报;2006年

2 ;Tensilica基于HiFi2引擎发布业界最低功耗的MP3软件解码器[N];电子资讯时报;2007年

3 四川 阿秋;DSR-2000型云台解码器简介与检修[N];电子报;2007年

4 ;H.264 视听新境界[N];中国电脑教育报;2007年

5 湖南 薛凌云;教你玩转奥运高清[N];电脑报;2008年

6 浙江 四方;两款DAC纯音频解码器[N];电子报;2000年

7 ;AVS标准的特点[N];电子资讯时报;2006年

8 闫;贝尔实验室推Turbo解码器[N];计算机世界;2003年

9 曙光;ST推出高集成度DVD后端解码器[N];中国电子报;2000年

10 湖南 刘修文;同步信号与基准时钟[N];电子报;2008年

相关博士学位论文 前10条

1 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年

2 向波;OFDM系统中高性能LDPC码解码器的研究与实现[D];复旦大学;2010年

3 鄢志杰;声学模型区分性训练及其在自动语音识别中的应用[D];中国科学技术大学;2008年

4 杜俊;自动语音识别中的噪声鲁棒性方法[D];中国科学技术大学;2009年

5 张朝柱;选择性衰落信道下的空时分组码研究[D];哈尔滨工程大学;2006年

6 胡郁;语音识别中基于模型补偿的噪声鲁棒性问题研究[D];中国科学技术大学;2009年

7 王涛;视频编解码器设计与实现关键问题研究[D];上海交通大学;2008年

8 张碧军;空时编码及相关技术研究[D];华中科技大学;2006年

9 胡军锋;基于LDPC码的MIMO系统关键技术研究[D];西安电子科技大学;2009年

10 赵欢;面向嵌入式计算平台的自动语音识别关键技术研究[D];湖南大学;2010年

相关硕士学位论文 前10条

1 吴涛;JPEG2000中EBCOT解码器的VLSI实现[D];浙江大学;2005年

2 邓广来;DVD伺服芯片中Reed-Solomon码解码器的研究与FPGA实现[D];大连海事大学;2005年

3 杨钊;基于特征补偿的自动语音识别的研究[D];中国科学技术大学;2010年

4 张俊芳;体育比赛音频分段和关键词检索研究[D];山东大学;2010年

5 黎红源;低复杂度的多码率LDPC解码器的研究与实现[D];华南理工大学;2013年

6 张敬彬;基于软硬件协同设计的H.264解码器研究[D];大连理工大学;2010年

7 孔勇;可检索加密技术的研究[D];暨南大学;2011年

8 石阳;H.264的实时熵解码器设计[D];哈尔滨工业大学;2011年

9 唐会维;H.264解码器的优化与实现[D];西安电子科技大学;2011年

10 何凯;非二进制LDPC码解码器设计研究[D];南京大学;2012年



本文编号:2224912

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2224912.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cc118***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com