当前位置:主页 > 科技论文 > 网络通信论文 >

语音关键词检测中的置信度研究

发布时间:2017-04-15 08:27

  本文关键词:语音关键词检测中的置信度研究,由笔耕文化传播整理发布。


【摘要】:关键词检测作为语音识别技术中的一项重要内容,具有广泛的应用前景和研究价值。但由于受环境噪声、说话人发音差异等因素的影响,检测结果中不可避免地存在大量错误。而置信度计算则能够在没有正确参考条件下,通过对各候选项的“可靠性”程度进行客观度量,有效排除识别过程中所产生的大量虚警,因此是关键词识别系统走向实用化的关键技术之一。本文根据关键词属性的不同,分别对基于集内词(In-Vocabulary, Ⅳ)和集外词(Out-of-Vocabulary,OOV)的置信度计算及规整技术进行了深入研究,具体内容和贡献主要有以下三个方面:(1)针对集内词检测中缺乏对上下文信息有效利用的问题,提出了一种基于上下文语义相似度优化的置信度方法。该方法首先将候选关键词与其上下文间的语义相似性程度作为置信度度量;其次,采用自适应滑动窗对连续识别结果进行语义分割,将候选关键词与其上下文锁定在相同语义片内,消除以整句话作为候选词上下文时所产生的不同语义间干扰;最后,通过引入归一化词间距离信息,异化相同语义片内的不同位置上下文对候选词的影响。实验结果表明,考虑语义分割和位置距离信息,能够显著增强基于上下文语义相似度的集内词置信度计算性能。(2)针对基于模糊匹配的集外词检测中,由于匹配的不精准性而导致部分集内词易被误识为集外词候选的问题,提出了一种基于语音误识的集外词置信度确认方法。该方法在不使用正确标注条件下,根据各候选词属性估计识别结果中可能存在的误识类别,并通过将其转化为特征以及区分性模型训练,来检测识别结果中的集内词、集外词区域。若在集内词区域发现关于集外词的模糊匹配结果,则将其视为错误虚警;相反若发生于集外词区域,则进一步通过联合置信度得分重估,判断候选结果的可靠性。实验结果表明,经本文基于扩展语音误识的置信度确认,系统集外词检测性能可实现较大程度提升。(3)针对不同候选关键词间的属性差异,可导致置信度得分代表的置信度水平有所不同的问题,提出了一种基于实际查询词权重代价(Actual Term-Weighted Value, ATWV)优化的词相关置信度规整方法。该方法根据测试集中词发生次数,调整候选关键词置信度得分,并分别采用线性和区分性方式补偿ATWV优化中产生的置信度偏差,其中线性补偿以线性组合方式调整置信度得分,而区分性补偿则通过将其转化为正确分类概率,降低置信度偏差带来的影响。实验结果表明,在该置信度规整方法下,关键词检测ATWV和DET曲线均会有所改善。
【关键词】:置信度计算 集内词检测 语义相似度优化 集外词检测 扩展语音误识 词相关规整 ATWV优化 偏差补偿
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
  • 摘要4-5
  • Abstract5-12
  • 第一章 绪论12-24
  • 1.1 语音关键词检测技术概述12-14
  • 1.1.1 关键词检测发展历程12-13
  • 1.1.2 关键词检测面临难点13-14
  • 1.2 研究关键词置信度计算意义14-15
  • 1.3 置信度计算研究现状15-20
  • 1.3.1 集内词置信度计算方法15-18
  • 1.3.2 集外词检测及置信度计算方法18-19
  • 1.3.3 置信度得分规整方法19-20
  • 1.4 存在的主要问题20
  • 1.5 论文研究内容及结构安排20-24
  • 第二章 语音关键词检测系统实现24-40
  • 2.1 关键词检测关键技术24-35
  • 2.1.1 预处理24-25
  • 2.1.2 特征提取25-26
  • 2.1.3 声学模型26-30
  • 2.1.4 语言模型30
  • 2.1.5 解码器30-32
  • 2.1.6 关键词搜索32-34
  • 2.1.7 置信度计算34-35
  • 2.2 关键词检测评价指标35-36
  • 2.2.1 漏警率、虚警率和DET曲线35-36
  • 2.2.2 实际查询词权重代价36
  • 2.3 实验36-38
  • 2.3.1 实验设置36-37
  • 2.3.2 实验结果与分析37-38
  • 2.4 小结38-40
  • 第三章 基于上下文语义相似度优化的集内词置信度计算40-50
  • 3.1 引言40
  • 3.2 上下文语义相似度40-42
  • 3.2.1 词间语义相似度41-42
  • 3.2.2 上下文路径选取42
  • 3.3 语义相似度优化处理42-44
  • 3.3.1 自适应滑动窗语义分割43-44
  • 3.3.2 引入距离信息的相似度度量44
  • 3.4 实验44-47
  • 3.4.1 实验设置44-45
  • 3.4.2 实验结果分析45-47
  • 3.5 小结47-50
  • 第四章 基于模糊匹配和扩展语音误识的集外词置信度算法50-60
  • 4.1 引言50
  • 4.2 集外词检测50-51
  • 4.3 语音误识估计51-52
  • 4.4 基于语音误识的置信度计算52-56
  • 4.4.1 扩展误识类别特征52-54
  • 4.4.2 基础特征选取及上下文相关化54-55
  • 4.4.3 IV/OOV标注55
  • 4.4.4 联合得分重估55-56
  • 4.5 实验56-58
  • 4.5.1 实验设置56
  • 4.5.2 实验结果及分析56-58
  • 4.6 小结58-60
  • 第五章 基于ATWV优化和偏差补偿的词相关置信度规整60-70
  • 5.1 引言60
  • 5.2 ATWV优化60-62
  • 5.3 偏差补偿方法62-64
  • 5.3.1 线性补偿62-63
  • 5.3.2 区分性补偿63-64
  • 5.4 实验64-68
  • 5.4.1 实验设置64-65
  • 5.4.2 实验结果分析65-68
  • 5.5 小结68-70
  • 结束语70-72
  • 一、本文主要工作70
  • 二、下一步研究方向70-72
  • 致谢72-74
  • 参考文献74-82
  • 作者简历82

【参考文献】

中国期刊全文数据库 前6条

1 Javier Tejedo;Simon King;Joe Frankel;;Term-Dependent Confidence Normalisation for Out-of-Vocabulary Spoken Term Detection[J];Journal of Computer Science & Technology;2012年02期

2 孟莎;刘加;;汉语语音检索的集外词问题与两阶段检索方法[J];中文信息学报;2009年06期

3 国玉晶;刘刚;刘健;郭军;;基于环境特征的语音识别置信度研究[J];清华大学学报(自然科学版);2009年S1期

4 倪崇嘉;刘文举;徐波;;汉语大词汇量连续语音识别系统研究进展[J];中文信息学报;2009年01期

5 张鹏远;邵健;赵庆卫;颜永红;;广播新闻语音的关键词检测系统[J];通信学报;2007年12期

6 孙辉;郑方;吴文虎;;基于上下文相关置信度打分的语音确认方法[J];清华大学学报(自然科学版);2006年01期


  本文关键词:语音关键词检测中的置信度研究,由笔耕文化传播整理发布。



本文编号:307958

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/307958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d79e8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com