基于系统融合的语音查询项检索技术研究

发布时间:2017-04-18 12:19

  本文关键词:基于系统融合的语音查询项检索技术研究,由笔耕文化传播整理发布。


【摘要】:随着大数据时代的到来,音频数据量急剧增加,为了有效利用这些信息,我们迫切需要一种有效的方法来对其中的语音信息进行检索。语音查询项检索是指依据用户输入的查询项,在大量语音资源中快速检索并返回查询项精确位置信息的技术。该技术首先应用大词表连续语音识别系统将语音信号转换为文本形式,然后在文本上搜索用户请求的查询项。受前端连续语音识别系统的限制,检索性能和速度一直是制约语音检索实用化的关键因素。将多个连续语音识别系统进行融合是提高语音查询项检索系统性能的有效途径之一,本文对语音查询项检索中的多系统融合技术及其两阶段得分规整方法展开深入研究,主要工作及创新点集中在以下三个方面:(1)提出了一种基于检索结果融合的语音查询项检索方法。该方法应用多套语音识别系统生成词图,分别建立索引,各自得到检索结果及相应的置信度得分,对得分进行归一化处理后,再对它们的检索结果进行融合。该方法提升系统性能的关键在于多套语音识别系统之间具有良好的互补性。本文通过构建具有差异性的声学模型来获得互补的识别系统,同时,为了克服连续语音识别系统中因剪枝错误而引起的关键词丢失问题,采用关键词相关的软Beam宽度剪枝策略裁剪词图。实验结果表明,经过得分归一化处理后,关键词检测实际查询项权重代价(ATWV)平均相对提升30%;相比于得分归一化处理后的最佳单一系统,融合后关键词检测性能得到了10%的提升。(2)提出了一种基于词图融合的语音查询项检索方法。语音查询项检索系统的性能很大程度上依赖于连续语音识别系统的准确性,因此常使用词图等多候选识别结果建立索引进行查询项检索。词图融合方法是在检索系统的前端采用多套语音识别系统分别生成词图,然后对多个词图进行融合,有效利用其互补信息,从而提高连续语音识别系统的识别率,进而提升检索系统的性能。本文研究了基于加权有限状态转换器(Weighted Finite-state Transducer,WFST)的词图合并和词图相交融合方法,实验表明基于融合词图的连续语音识别率得到提升,在融合后的词图上进行语音查询项检索,系统性能得到明显提升。(3)提出了一种语音查询项检索中的两阶段得分规整方法。传统的检索系统主要应用关键词查询项在词图中得到的后验概率作为其置信度得分来进行关键词确认,但是不同查询项自身特征有所区别,使得它们之间的得分没有可比性。得分规整成为语音查询项检索系统中必不可少的过程。本文提出的两阶段得分规整方法,首先利用引入两个新特征的区分性得分规整方法,使得正确候选结果和错误候选结果的置信度得分区分性更大,更容易进行关键词确认;然后,应用基于优化查询项权重代价指标的得分规整方法作为后处理得到最优的关键词检测性能。实验结果表明,两阶段得分规整方法同时利用了区分性和基于优化查询项权重代价指标得分规整方法的优点,相比最佳单一得分规整方法相对提升5.8%。
【关键词】:语音查询项检索 系统融合 加权有限状态转换器 词图融合 置信度得分 得分规整 区分性模型
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
  • 摘要4-6
  • Abstract6-13
  • 第一章 绪论13-27
  • 1.1 课题研究背景及意义13
  • 1.2 语音查询项检索技术的历史与发展13-16
  • 1.2.1 基于模版匹配的方法14
  • 1.2.2 基于垃圾模型的方法14
  • 1.2.3 基于两阶段的关键词检测方法14-15
  • 1.2.4 基于语音事件的方法15
  • 1.2.5 基于语音样例的方法15-16
  • 1.3 语音查询项检索技术研究现状16-21
  • 1.3.1 基于WFST的语音查询项检索16-17
  • 1.3.2 检测结果层的融合17-18
  • 1.3.3 识别结果层的融合18-19
  • 1.3.4 置信度得分规整方法19-20
  • 1.3.5 存在的不足20-21
  • 1.4 性能评价指标21-22
  • 1.4.1 词错误率21
  • 1.4.2 ATWV与MTWV21-22
  • 1.4.3 DET曲线22
  • 1.4.4 图错误率22
  • 1.4.5 词图密度22
  • 1.5 论文的研究内容和结构安排22-27
  • 1.5.1 研究内容22-24
  • 1.5.2 论文的组织结构24-27
  • 第二章 基于WFST的语音查询项检索系统27-41
  • 2.1 基于WFST的语音查询项检索系统框架27-28
  • 2.2 WFST的基本理论28-30
  • 2.2.1 半环理论28-29
  • 2.2.2 加权有限状态自动机理论29-30
  • 2.2.3 因子自动机30
  • 2.3 基于WFST的连续语音识别30-33
  • 2.3.1 语音识别基本原理30-31
  • 2.3.2 基于WFST的连续语音识别基本原理31-33
  • 2.4 基于WFST词图的索引与搜索算法33-38
  • 2.4.1 预处理33-34
  • 2.4.2 时间因子转换器的构建34-37
  • 2.4.3 检索37-38
  • 2.5 实验结果及分析38-39
  • 2.5.1 实验设置38
  • 2.5.2 基线系统性能38-39
  • 2.6 本章小结39-41
  • 第三章 基于检索结果融合的语音查询项检索方法41-51
  • 3.1 引言41
  • 3.2 基于检索结果融合的语音查询项检索系统41-42
  • 3.2.1 系统框架41-42
  • 3.2.2 子系统词图生成42
  • 3.3 得分归一化42-43
  • 3.4 系统融合43-45
  • 3.4.1 时间对齐43-44
  • 3.4.2 分数融合44-45
  • 3.5 实验结果及分析45-49
  • 3.5.1 实验配置45-46
  • 3.5.2 单系统连续语音识别性能46
  • 3.5.3 软Beam宽度剪枝性能分析46-47
  • 3.5.4 得分归一化方法性能分析47-48
  • 3.5.5 系统合并方法性能分析48
  • 3.5.6 查询项长度对关键词检测性能的影响48-49
  • 3.6 本章小结49-51
  • 第四章 基于词图融合的语音查询项检索方法51-61
  • 4.1 引言51-52
  • 4.2 词图合并方法52-53
  • 4.2.1 词图52
  • 4.2.2 词图合并52-53
  • 4.3 基于WFST的词图相交算法53-55
  • 4.3.1 WFST中的合成算法53-54
  • 4.3.2 词图相交算法54-55
  • 4.4 实验结果及分析55-59
  • 4.4.1 实验设置55-56
  • 4.4.2 词图融合前后的性能比较56-57
  • 4.4.3 词图相交中得分融合权重对识别性能的影响57
  • 4.4.4 词图相交中关键词检测门限的选取57-58
  • 4.4.5 词图融合前后对关键词检测性能ATWV的影响58-59
  • 4.5 本章小结59-61
  • 第五章 语音查询项检索中的两阶段得分规整方法61-69
  • 5.1 引言61
  • 5.2 区分性得分规整方法61-63
  • 5.3 两阶段得分规整方法63-64
  • 5.4 实验结果及分析64-67
  • 5.4.1 实验配置64
  • 5.4.2 加入新特征的区分性得分规整性能64-65
  • 5.4.3 两阶段得分规整性能65-67
  • 5.5 本章小结67-69
  • 第六章 结论69-71
  • 一、本文主要工作69-70
  • 二、进一步研究方向70-71
  • 致谢71-73
  • 参考文献73-81
  • 作者简历81

【参考文献】

中国期刊全文数据库 前3条

1 郭宇弘;黎塔;肖业鸣;潘接林;颜永红;;基于加权有限状态机的动态匹配词图生成算法[J];电子与信息学报;2014年01期

2 陆俊;张琼;杨俊安;王一;刘辉;;嵌入深度信念网络的点过程模型用于关键词检出[J];信号处理;2013年07期

3 孟猛;王晓瑞;梁家恩;徐波;;一种基于互补声学模型的多系统融合语音关键词检测方法[J];自动化学报;2009年01期


  本文关键词:基于系统融合的语音查询项检索技术研究,由笔耕文化传播整理发布。



本文编号:314887

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/314887.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9d7a2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com