当前位置:主页 > 科技论文 > 信息工程论文 >

资源受限情况下基于ASR的关键词检索研究

发布时间:2017-04-15 04:14

  本文关键词:资源受限情况下基于ASR的关键词检索研究,,由笔耕文化传播整理发布。


【摘要】:基于自动语音识别(Automatic Speech Recognition, ASR)的检索技术是关键词检索(Spoken Term Detection, STD)的主流技术,资源受限情况下(Limited-resource Conditions)的关键词检索是当前STD重要的研究方向。本论文针对该领域的一些关键技术问题进行研究,主要集中在三个方面:首先在声学模型训练方法上进行研究,采用多种途径提高资源受限情况下的语音识别性能;其次,在不引入过多虚警的情况下,减少资源受限情况下关键词检索的漏警;最后,提升候选结果的置信度,改善检索性能。基于ASR的关键词检索非常依赖于语音识别的性能,而资源受限情况下的ASR的性能非常差,这极大地影响了STD的性能。针对这一问题,本文在声学模型训练方法上进行研究,采用多种方法提高ASR系统的识别率。本文中采用主流的深层神经网络(DNN)来建立声学模型,首先利用数据驱动的方法自动生成模型训练所需要的问题集;其次为了缓解因数据不足而造成的过拟合问题,使用跨语种共享隐层的策略来提高DNN的鲁棒性;并通过声道长度扰动(VTLP)和数据加噪等数据扩充的方法,增加训练数据。最后,采用DNN序列-区分性训练(SDT)的方法,如基于最大互信息量(MMI)、最小状态级贝叶斯风险(sMBR)等准则,进一步优化声学模型,提高资源受限情况下ASR系统的性能。在STD评估中,漏警和虚警是检索中常见的两种错误。而在实际的检索任务中,漏掉一个关键词的代价通常比引入一个虚警的代价要大。因此,对于STD系统,在不引入过多虚警的情况下,有效减少漏警至关重要。本文中,我们对资源受限情况下DNN声学模型的类概率分布进行研究,提出两种不同的平滑策略来降低STD的漏警,并采用关键词相关门限的判决方法控制虚警,改善检索性能。由于ASR不可避免地出现错误,STD需要根据候选结果的检索置信度做进一步的判决。通常情况下,单一系统的检索置信度可靠性较低,这一问题在资源受限的情况下尤为突出。为此,本文采用不同检索单元融合及多系统融合的策略,提升候选结果的置信度。在本文中,我们首先研究CN和FST这两种不同的检索单元的各自特点并按照不同的检索词长度将二者进行融合,各取所长,以提高STD的性能。随后在多系统融合中,我们将DNN-HMM和BN-GMM-HMM两种不同的识别系统以及词、音节、词片和音素四种不同的解码单元进行融合,进一步改善检索性能。使用这些改进方法,本文在藏语数据库和NIST OpenKWS2014泰米尔语(Tamil)数据库上进行了相关实验,获得了非常明显的性能提升。
【关键词】:资源受限 关键词检索 语音识别 深层神经网络 平滑策略 系统融合
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
  • 摘要5-7
  • Abstract7-14
  • 符号说明14-16
  • 第1章 绪论16-24
  • 1.1 研究背景16-17
  • 1.2 国内外研究现状17-18
  • 1.3 基于ASR的关键词检索系统框架18-19
  • 1.4 任务集描述与性能评价指标19-22
  • 1.4.1 任务集描述19-20
  • 1.4.2 语音识别性能评价指标20-21
  • 1.4.3 关键词检索性能评价指标21-22
  • 1.5 论文的研究内容22-23
  • 1.6 论文的结构安排23-24
  • 第2章 资源受限情况下自动语音识别系统的建立24-48
  • 2.1 自动语音识别的基本原理24-27
  • 2.2 声学模型的原理和基本方法27-36
  • 2.2.1 基于HMM的声学模型28-30
  • 2.2.2 基于GMM-HMM声学模型的最大似然估计30-31
  • 2.2.3 基于GMM-HMM声学模型的区分性训练31-33
  • 2.2.4 基于DNN-HMM的声学模型33-36
  • 2.3 资源受限情况下的声学模型优化方法36-43
  • 2.3.1 基于数据驱动的问题集36-37
  • 2.3.2 DNN跨语种共享隐层策略37-38
  • 2.3.3 数据扩充38-41
  • 2.3.3.1 声道长度扰动39-40
  • 2.3.3.2 数据加噪40-41
  • 2.3.4 DNN序列-区分性训练41-43
  • 2.3.4.1 最大互信息量准则41-42
  • 2.3.4.2 最小状态级贝叶斯风险准则42-43
  • 2.4 实验结果及分析43-47
  • 2.4.1 藏语的实验结果43-45
  • 2.4.2 泰米尔语的实验结果45-47
  • 2.5 本章小结47-48
  • 第3章 基于DNN类概率平滑的关键词检索技术48-58
  • 3.1 研究动机48-50
  • 3.2 DNN类概率平滑研究50-53
  • 3.2.1 线性平滑方法52
  • 3.2.2 非线性平滑方法52-53
  • 3.3 词格覆盖度53-54
  • 3.4 关键词相关的门限判决方法54-55
  • 3.5 实验结果与分析55-56
  • 3.6 本章小结56-58
  • 第4章 基于系统融合的关键词检索技术58-68
  • 4.1 系统融合概述58-60
  • 4.2 不同检索单元融合60-62
  • 4.2.1 基于混淆网络的检索60-61
  • 4.2.2 基于有限状态转换器的检索61-62
  • 4.3 多系统融合62-64
  • 4.3.1 不同识别系统融合62-63
  • 4.3.2 不同解码单元融合63-64
  • 4.4 实验结果及分析64-66
  • 4.5 本章小结66-68
  • 第5章 总结与展望68-70
  • 5.1 论文总结68-69
  • 5.2 研究展望69-70
  • 参考文献70-78
  • 致谢78-80
  • 在读期间发表的学术论文与取得的其他研究成果80

【相似文献】

中国期刊全文数据库 前10条

1 苏文;王骞;;结合实际案例分析关键词的选取[J];电视技术;2013年S2期

2 黎方正;谢东;;基于完全化语义的关键词检索研究[J];计算机应用研究;2010年10期

3 王

本文编号:307602


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/307602.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2feb5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com