当前位置:主页 > 科技论文 > 信息工程论文 >

语音识别置信度特征提取算法研究

发布时间:2016-09-15 22:00

  本文关键词:基于混淆网络和辅助信息的语音识别技术研究,由笔耕文化传播整理发布。


《北京邮电大学》 2010年

语音识别置信度特征提取算法研究

国玉晶  

【摘要】: 大规模连续语音识别的研究已经进行了二十多年,虽已取得了显著进展,但距离广泛应用还有相当的距离。在克服识别算法本身缺陷、追求识别性能提升的过程中,研究者们逐渐引入了置信度的概念,用它来衡量语音识别系统所作决策的可信程度。近年来,语音识别置信度在语音错误检测与错误纠正,无监督和半监督训练、多遍搜索技术和语料库中错误语料甄选等应用中都发挥了非常重要的作用。 传统的语音识别置信度标注基于不同置信特征或者特征组合进行分类判决,目前常使用的置信特征主要来源于解码信息。但是,方面现有置信度特征对解码信息的挖掘仍局限于孤立和静态,而忽略了词与周围环境之间的关系;另一方面,目前声学特征仍占主要地位,而人类听觉实验表明,人在进行语音理解时,大约有30%的信息来自于语法、语义等知识的指导。因此,在置信度特征提取中,如何挖掘出词与环境之间的关系,同时提炼出词的语法和语义特征,从而提高识别后处理性能,是一个非常值得研究的问题。 基于上述目的,本文在搭建传统语音识别置信度标记系统的基础上,提出了两种新的置信度特征,一是环境特征,分为上下文环境、动态环境、句全局环境三类,通过对解码信息的再加工,从空间与时间角度较全面地描述了词与环境之间的关系;二是基于主题相似性的语义层置信特征提取算法TSS (Topic Similarity based Semantic confidence feature extraction algorithm),通过主题模型LDA(Latent Dirichlet Allocation)计算得到识别结果中词的主题分布及其上下文的主题分布,并将二者之间的主题相似性作为词的语义置信特征。实验表明,本文提出的两种特征深入挖掘了解码层的有效信息,又增加了置信特征的信息来源,与解码层置信特征进行组合后能有效地提高置信度标注的精度。

【关键词】:
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TN912.34
【目录】:

  • 摘要4-5
  • ABSTRACT5-11
  • 第一章 绪论11-17
  • 1.1 什么是语音识别的置信度11
  • 1.2 研究语音识别置信度的意义11-12
  • 1.3 国内外相关研究现状12-14
  • 1.3.1 传统的置信度特征12-14
  • 1.3.2 基于高层语义信息的置信度特征14
  • 1.4 论文的研究内容14-16
  • 1.4.1 环境特征14-15
  • 1.4.2 基于主题相似性的语义层置信特征15-16
  • 1.5 论文的组织结构16-17
  • 第二章 大规模连续语音识别原理17-32
  • 2.1 引言17-27
  • 2.1.1 声学特征提取17-19
  • 2.1.2 隐马尔可夫模型19-27
  • 2.2 语言模型27-32
  • 2.2.1 n-gram语言模型27-28
  • 2.2.2 建立音素级语言模型28-29
  • 2.2.3 稳健的语言模型29-32
  • 第三章 基于混淆网络的置信度标记基线系统32-48
  • 3.1 引言32
  • 3.2 音素网络lattice32-36
  • 3.2.1 lattice的结构33-34
  • 3.2.2 基于lattice的关键词后验概率估计34-36
  • 3.3 混淆网络mesh36-41
  • 3.3.1 混淆网络概述36-39
  • 3.3.2 基于lattice的混淆网络生成方法39-41
  • 3.4 基于SVM的置信度标记41-48
  • 3.4.1 SVM支撑向量机41-45
  • 3.4.2 基于SVM的置信度标记与评价标准45-48
  • 第四章 环境特征48-53
  • 4.1 引言48
  • 4.2 环境特征48-50
  • 4.2.1 上下文特征48-49
  • 4.2.2 动态特征49-50
  • 4.2.3 句全局特征50
  • 4.3 实验设计50-51
  • 4.3.1 系统框架50
  • 4.3.2 实验数据50-51
  • 4.4 实验结果51-52
  • 4.5 结论与展望52-53
  • 第五章 基于主题相似度的语义层特征53-66
  • 5.1 引言53
  • 5.2 LDA模型53-55
  • 5.3 基于主题相似性的语义层特征提取算法55-58
  • 5.3.1 词的主题分布56
  • 5.3.2 上下文主题分布56-57
  • 5.3.3 主题相似性57-58
  • 5.4 实验设计58-63
  • 5.4.1 系统框架58
  • 5.4.2 实验数据58-59
  • 5.4.3 基于主题相似性的语义层置信特征提取算法参数选择59-63
  • 5.5 实验结果63-64
  • 5.6 结论与展望64-66
  • 第六章 总结与展望66-68
  • 参考文献68-71
  • 致谢71-72
  • 攻读硕士学位期间发表的论文72
  • 下载全文 更多同类文献

    CAJ全文下载

    (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询)

    CAJViewer阅读器支持CAJ、PDF文件格式


    【引证文献】

    中国硕士学位论文全文数据库 前1条

    1 陈国兴;基于音节片Lattice的语音检索关键问题研究[D];哈尔滨工程大学;2012年

    【同被引文献】

    中国期刊全文数据库 前10条

    1 常凯;;基于TF*IDF垃圾邮件过滤改进算法的研究[J];电脑知识与技术;2010年25期

    2 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期

    3 饶耀全;吴小培;吕钊;;基于HTK的汉语语音售票系统的设计与实现[J];工业控制计算机;2010年10期

    4 王欢良;韩纪庆;;基于Lattice分段的高质量混淆网络快速生成方法[J];高技术通讯;2010年05期

    5 孙成立;;混淆网络在音频文档检索系统中的应用研究[J];计算机工程与应用;2010年28期

    6 吴丽华;罗云锋;张宏斌;;信息检索模型及相关性算法的研究[J];情报杂志;2006年12期

    7 孟莎;余鹏;Frank Seide;刘加;;基于后验概率词格的汉语自然对话语音索引[J];清华大学学报(自然科学版);2008年S1期

    8 吴斌;刘刚;郭军;;汉语大词汇量连续语音识别中混淆网络算法的研究[J];四川大学学报(工程科学版);2007年S1期

    9 郑铁然;韩纪庆;李海洋;;基于词片的语言模型及在汉语语音检索中的应用[J];通信学报;2009年03期

    10 石现峰;张学智;张峰;;基于HTK的语音识别系统设计[J];计算机技术与发展;2006年10期

    中国博士学位论文全文数据库 前2条

    1 王欢良;基于混淆网络和辅助信息的语音识别技术研究[D];哈尔滨工业大学;2007年

    2 郑铁然;基于音节网格的汉语语音文档检索方法研究[D];哈尔滨工业大学;2008年

    中国硕士学位论文全文数据库 前10条

    1 高运霞;基于网格的中文语音文件检索技术的研究[D];哈尔滨工程大学;2010年

    2 陈晶;基于词片网格的语音文档主题分类[D];哈尔滨工程大学;2010年

    3 刘建舟;术语自动抽取系统的设计及关键技术研究[D];华中师范大学;2004年

    4 侯周国;基于HMM的汉语数字语音识别系统研究[D];湖南师范大学;2006年

    5 郑毅;文本挖掘及其在文本检索中的应用[D];中国科学院研究生院(计算技术研究所);2002年

    6 苏敏;一种基于HMM和RBF网络混合的语音识别算法研究[D];兰州理工大学;2007年

    7 刘洋;基于最佳状态数的汉语数字语音识别系统的研究与实现[D];北京邮电大学;2008年

    8 项勇;基于DSP和HMM的语音识别系统设计与实现[D];武汉科技大学;2008年

    9 李海洋;基于词片和Lattice的汉语语音检索技术研究[D];哈尔滨工业大学;2007年

    10 蒋斌;基于停用词处理的汉语语音检索方法[D];哈尔滨工业大学;2008年

    【相似文献】

    中国期刊全文数据库 前10条

    1 白宝兴;管道内表面质量检测系统设计[J];中国图象图形学报;1998年06期

    2 张亮;郭桂蓉;庄钊文;何松华;马莉波;;雷达目标高分辨距离像数据预处理方法研究[J];电子学报;1998年06期

    3 沈同圣;任建存;冯亚林;周晓东;;红外成像制导中目标识别方法探讨[J];红外与激光工程;1998年05期

    4 刘守生,丁勇,胡寿松;一种特征提取新方法[J];信号处理;1999年S1期

    5 李平,蒋振刚;神经网络对手写字符识别特征的提取[J];长春光学精密机械学院学报;2000年02期

    6 孟国强;基于车辆牌照识别系统字符的特征提取方法研究[J];河南科学;2003年06期

    7 邵云生,徐国华;雷达舰船目标的混合特征提取算法的设计与实现[J];舰船电子对抗;2004年02期

    8 崔晨旸,石教英;三维模型检索中的特征提取技术综述[J];计算机辅助设计与图形学学报;2004年07期

    9 张晓东,陈锋;基于非线性回归的自适应特征提取算法[J];阜阳师范学院学报(自然科学版);2004年02期

    10 夏晓清,冯伟,赵荣椿;CPODW数字水印技术中的图像内容提取方法[J];计算机应用;2004年S2期

    中国重要会议论文全文数据库 前10条

    1 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年

    2 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年

    3 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年

    4 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年

    5 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年

    6 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年

    7 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

    8 朱晓霞;孙同景;陈桂友;;基于支持向量机理论的两级指纹分类实现方法[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年

    9 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年

    10 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年

    中国重要报纸全文数据库 前10条

    1 燕海霞;王忆勤;李福凤;[N];中国医药报;2005年

    2 沈占锋;[N];计算机世界;2006年

    3 王竣;[N];中国医药报;2007年

    4 北京数码空间信息技术有限公司技术总监 刘斌;[N];计算机世界;2000年

    5 孙哲南 谭铁牛;[N];计算机世界;2007年

    6 上海 高博;[N];电脑报;2008年

    7 记者 何腾江 通讯员 周汇成;[N];中山日报;2008年

    8 本报记者 刘洪宇;[N];辽宁日报;2008年

    9 林木树;[N];人民邮电;2004年

    10 中科院自动化所 何鹏 陶建华 谭铁牛;[N];计算机世界;2005年

    中国博士学位论文全文数据库 前10条

    1 冯坤;基于内积变换的机械故障特征提取原理与早期识别方法研究[D];北京化工大学;2012年

    2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年

    3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年

    4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年

    5 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年

    6 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年

    7 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年

    8 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年

    9 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年

    10 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年

    中国硕士学位论文全文数据库 前10条

    1 国玉晶;语音识别置信度特征提取算法研究[D];北京邮电大学;2010年

    2 曾红梅;情绪图片视觉诱发EEG特征提取与分析[D];天津大学;2012年

    3 雷自力;基于Pro/E的三维零件参数化建模和特征提取研究[D];华中科技大学;2011年

    4 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年

    5 黄健;履带式车辆微多普勒效应与特征提取[D];国防科学技术大学;2009年

    6 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年

    7 栾岚;基于机理模型判据的图像中微弱特征提取方法研究及应用[D];东北大学;2009年

    8 王菲;面向肺部CAD的特征提取、选择及分类方法研究[D];东北大学;2009年

    9 郑睿;藻类细胞图像的特征提取与分类方法研究[D];杭州电子科技大学;2009年

    10 李仁杰;高分辨率SAR图像目标三维特征提取与建模[D];国防科学技术大学;2010年


      本文关键词:基于混淆网络和辅助信息的语音识别技术研究,由笔耕文化传播整理发布。



    本文编号:116056

    资料下载
    论文发表

    本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/116056.html


    Copyright(c)文论论文网All Rights Reserved | 网站地图 |

    版权申明:资料由用户bdba0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com