基于WFST的语音查询项检索技术研究
发布时间:2017-04-20 13:13
本文关键词:基于WFST的语音查询项检索技术研究,,由笔耕文化传播整理发布。
【摘要】:语音查询项检索是指根据用户输入的查询项,在大量语音资源中搜索并返回相关信息的过程,在军事与信息安全、语音资源的分类与管理以及多媒体搜索引擎等领域都有广泛应用。近年来,基于加权有限状态转换器(Weighted Finite-state Transducer,WFST)的语音查询项检索技术逐渐发展成为一种非常流行的语音检索技术,受到了越来越多的关注。在WFST框架下,本文对词格(Lattice)结构的改进、集外词查询项的扩展、判决阈值的设定等开展了研究,达到加快检索速度的同时提高系统检索精度的目的,主要工作如下:(1)研究了加权有限状态机的相关理论,搭建了基于WFST的语音查询项检索系统。索引建立阶段,该系统直接将词格转换为自动机,经过预处理后建立基于时间的因子转换器,将所有因子转换器进行联合、优化得到WFST索引。查询阶段,将查询项转化为自动机后与索引进行合成运算得到表示查询结果的自动机。实验结果表明,采用WFST方法进行索引建立和检索,与传统直接对词格搜索的方法相比,检索速度得到明显提升。(2)针对词格结构较为复杂,冗余信息多,占用存储空间大等问题,提出了一种基于混淆网络的WFST语音查询项检索技术,以混淆网络代替词格建立WFST索引。索引建立阶段,首先由词格生成混淆网络,并转化为自动机,然后通过加权自动机索引算法建立WFST索引,检索阶段采用合成算法进行检索。实验结果表明,在保证系统检索性能的前提下,与直接以词格建立的WFST索引相比,以混淆网络建立的WFST索引尺寸更小,搜索速度更快。(3)针对语音查询项检索系统中集外词检索性能较差的问题,在WFST框架下提出了一种基于发音混淆模型的集外词查询项扩展方法,将查询项扩展成多发音序列来解决集外词问题。发音混淆模型在WFST框架下用发音混淆矩阵转化的P2P转换器表示,该模型可以充分反映识别错误的情况以及音素之间相互混淆的可能性大小。在WFST框架下,首先利用G2P模型生成查询项的发音序列,然后加入发音混淆模型生成N-best多发音序列,以补偿自动语音识别错误造成的索引与查询项之间存在的差异所带来的影响,从而有效降低漏警率。实验结果表明,加入发音混淆模型之后,系统集外词检索的性能得到明显提升。(4)针对判决阶段全局阈值性能较差的问题,提出了一种基于相关得分分布的查询项特定阈值方法。该方法在系统判决阶段根据每个查询项候选者的相关得分分布,为每个查询项设定不同阈值。查询项候选结果的判决问题可以看作假设检验问题。首先确定判决框架,得到阈值计算函数;其次用统计方法确定查询项候选者相关得分的分布模型为混合指数模型;然后通过无监督的EM算法估计混合指数模型参数,采用K-means聚类法进行初始化,解决EM算法对初始值较为敏感的问题;最后利用贝叶斯最小风险准则,根据模型参数计算出查询项的阈值。实验结果表明,该阈值方法在准确率/召回率曲线中有更好的检索性能。
【关键词】:语音查询项检索 加权有限状态转换器 词格 混淆网络 集外词 发音混淆模型 相关得分分布 查询项特定阈值 K-means聚类
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TN912.3
【目录】:
- 摘要4-6
- ABSTRACT6-13
- 第一章 绪论13-25
- 1.1 课题的研究背景与意义13-14
- 1.2 语音查询项检索技术的发展历程14
- 1.3 语音查询项检索技术的研究现状14-21
- 1.3.1 基于WFST的语音识别与检索15-17
- 1.3.2 Lattice结构的改进17-19
- 1.3.3 集外词检索19-20
- 1.3.4 判决策略20-21
- 1.4 论文的研究内容和结构安排21-25
- 1.4.1 论文的研究内容21-22
- 1.4.2 论文的结构安排22-25
- 第二章 基于WFST的语音查询项检索基线系统25-39
- 2.1 基于WFST的语音查询项检索系统基本框架25-27
- 2.1.1 自动语音识别25-26
- 2.1.2 查询项检索26-27
- 2.2 加权有限状态机理论27-32
- 2.2.1 半环理论27-28
- 2.2.2 加权有限状态机定义28-29
- 2.2.3 加权有限状态机的相关算法29-32
- 2.3 基于WFST的索引与检索技术32-36
- 2.3.1 预处理32-33
- 2.3.2 索引建立33-35
- 2.3.3 检索35-36
- 2.4 性能评测36-37
- 2.4.1 实验语料36
- 2.4.2 性能评价指标36-37
- 2.4.3 基线系统性能37
- 2.5 小结37-39
- 第三章 基于混淆网络的WFST语音查询项检索技术39-47
- 3.1 混淆网络概述39-42
- 3.1.1 混淆网络的定义39-40
- 3.1.2 混淆网络的生成40-42
- 3.2 基于混淆网络的WFST语音查询项检索技术42-43
- 3.2.1 混淆网络与自动机的转化42-43
- 3.2.2 基于混淆网络的WFST语音查询项检索技术43
- 3.3 实验结果与分析43-46
- 3.3.1 混淆网络与Lattice的WFST索引检索性能比较43-44
- 3.3.2 混淆网络与Lattice的WFST索引尺寸比较44-45
- 3.3.3 混淆网络与Lattice的WFST索引搜索时间比较45-46
- 3.3.4 混淆网络WFST索引与混淆网络索引的性能比较46
- 3.4 小结46-47
- 第四章 基于发音混淆模型的集外词查询项扩展方法47-55
- 4.1 发音混淆模型47-49
- 4.1.1 发音混淆矩阵48-49
- 4.1.2 P2P转换器49
- 4.2 集外词查询项的生成与扩展49-52
- 4.2.1 查询项发音序列的生成49-51
- 4.2.2 查询项发音序列的扩展51-52
- 4.3 实验结果与分析52-54
- 4.3.1 G2P模型生成N-best发音序列的性能52-53
- 4.3.2 发音混淆模型生成N-best发音序列的性能53-54
- 4.3.3 不同扩展方法的性能比较54
- 4.4 小结54-55
- 第五章 基于相关得分分布的查询项特定阈值技术55-65
- 5.1 STD中常用的阈值技术55-56
- 5.1.1 全局阈值55
- 5.1.2 基于TWV的查询项特定阈值55-56
- 5.2 基于相关得分分布的查询项特定阈值56-61
- 5.2.1 判决框架56-57
- 5.2.2 类分布模型57-58
- 5.2.3 参数估计58-59
- 5.2.4 参数初始化59-60
- 5.2.5 贝叶斯优化阈值60-61
- 5.3 实验结果与分析61-63
- 5.3.1 实验设置61
- 5.3.2 评价指标61
- 5.3.3 实验结果和分析61-63
- 5.4 小结63-65
- 结论65-67
- 一、论文工作总结65-66
- 二、前景和展望66-67
- 致谢67-69
- 参考文献69-75
- 作者简历75
【参考文献】
中国期刊全文数据库 前3条
1 郭宇弘;黎塔;肖业鸣;潘接林;颜永红;;基于加权有限状态机的动态匹配词图生成算法[J];电子与信息学报;2014年01期
2 郑铁然;韩纪庆;李海洋;;基于词片的语言模型及在汉语语音检索中的应用[J];通信学报;2009年03期
3 王欢良;韩纪庆;郑铁然;李海峰;;基于K-L散度的最大后验弧主导的混淆网络生成算法[J];电子与信息学报;2008年05期
本文关键词:基于WFST的语音查询项检索技术研究,由笔耕文化传播整理发布。
本文编号:318740
本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/318740.html