当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度学习的汉语语音关键词检测方法研究

发布时间:2017-05-22 16:03

  本文关键词:基于深度学习的汉语语音关键词检测方法研究,,由笔耕文化传播整理发布。


【摘要】:语音关键词检测是一种从连续的语音流中检测预定义的一组关键词的技术,它的一种主流方法是基于大词汇量连续语音识别器(Large Vocabulary Continuous Speech Recognition,LVCSR)的。基于语音识别器的关键词检测系统主要有两个阶段——解码阶段和检测阶段,语音识别器的性能对关键词检测的性能有很大影响。传统的关键词检测是用GMM(Gaussian Mixture Model)和HMM(Hidden Markov Model)结合的GMM-HMM模型作为LVCSR的声学模型,其识别率不高。近年来深度学习技术对语音识别产生了巨大影响,人们对DNN(Deep Neural Network)替代GMM组成DNN-HMM声学模型进行了深入研究。本文研究在关键词检测中用DNN-HMM声学模型替代GMM-HMM声学模型,并在DNN-HMM声学模型的基础上建立关键词检测系统。实验结果表明,基于DNN-HMM模型的语音识别器相比基于GMM-HMM模型的语音识别器识别率更高,关键词检测系统的性能也更好。针对基于LVCSR的关键词检测两阶段间缺乏紧密联系的问题,本文在DNN-HMM声学模型的基础上,研究了在声学模型的训练阶段,对关键词赋予较大的权重以提高模型对关键词的建模能力。因此,本文考虑在区分性训练中,利用侧重关键词的非均匀准则进行训练。本文首先研究了对关键词进行侧重的非均匀MCE(Minimum Classification Erro)准则,然后用非均匀MCE准则对声学模型参数进行优化。非均匀MCE准则中关键词的权重系数对识别结果有一定影响,固定权重系数的缺点是较大的权重系数可能导致过训练。因此本文研究利用Ada Boost(Adaptive Boosting)算法来动态调整非均匀MCE训练过程中的权重系数,Ada Boost算法可以避免非均匀MCE准则中的过训练问题,提高模型的泛化能力。实验结果表明,基于Ada Boost算法的非均匀MCE准则的关键词检测性能更好。此外,本文还研究了非均匀s MBR(statelevel Minimum Bayes Risk)准则,实验结果表明,基于非均匀s MBR方法的系统性能要好于基线系统,本文最后对这两种非均匀准则进行了总结和对比。
【关键词】:检测 深度学习 区分性训练 最小分类错误
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 第1章 绪论9-19
  • 1.1 课题背景及研究的目的和意义9-11
  • 1.2 国内外研究现状与分析11-17
  • 1.2.1 基于模板匹配的关键词检测12-13
  • 1.2.2 基于Keyword/Filler模型的关键词检测13
  • 1.2.3 基于LVCSR的关键词检测13-16
  • 1.2.4 低资源环境下的关键词检测16
  • 1.2.5 总结与分析16-17
  • 1.3 主要研究内容17-19
  • 第2章 关键词检测系统的基本组成19-31
  • 2.1 引言19-20
  • 2.2 关键词检测中的语音识别器20-27
  • 2.2.1 前端处理20-21
  • 2.2.2 声学模型21-24
  • 2.2.3 语言模型24-26
  • 2.2.4 基于WFST的语音识别26-27
  • 2.3 建立索引和搜索27-29
  • 2.4 关键词检测系统的评价指标29-30
  • 2.5 基线系统的实验结果30
  • 2.6 本章小结30-31
  • 第3章 基于DNN-HMM声学模型构建的关键词检测31-45
  • 3.1 引言31-32
  • 3.2 DNN-HMM声学模型32-35
  • 3.2.1 DNN-HMM声学模型的结构32-34
  • 3.2.2 用DNN-HMM声学模型解码34-35
  • 3.3 DNN-HMM模型的主要训练过程35-40
  • 3.3.1 DNN-HMM模型的预训练36-39
  • 3.3.2 DNN-HMM模型的参数调优39-40
  • 3.4 DNN-HMM声学模型中的非线性单元40-42
  • 3.4.1 sigmoid激活单元40-41
  • 3.4.2 Re LU单元41-42
  • 3.4.3 p-norm单元42
  • 3.5 实验结果与分析42-43
  • 3.6 本章小结43-45
  • 第4章 关键词声学模型的区分性训练45-60
  • 4.1 引言45-46
  • 4.2 基于非均匀MCE准则的关键词声学模型46-51
  • 4.2.1 基于MCE准则的区分性训练46-47
  • 4.2.2 关键词检测的非均匀MCE准则47-49
  • 4.2.3 基于Ada Boost算法的非均匀MCE准则49-51
  • 4.3 基于非均匀s MBR准则的关键词声学模型51-53
  • 4.4 模型训练需考虑的实际因素53-55
  • 4.4.1 Lattice生成53-55
  • 4.4.2 学习率的调整55
  • 4.5 实验结果与分析55-58
  • 4.5.1 非均匀MCE准则的实验结果与分析55-57
  • 4.5.2 非均匀s MBR准则的实验结果与分析57-58
  • 4.6 本章小结58-60
  • 结论60-62
  • 参考文献62-67
  • 攻读硕士学位期间发表的论文67-69
  • 致谢69

【参考文献】

中国博士学位论文全文数据库 前1条

1 李海洋;汉语语音关键词检测中置信测度研究[D];哈尔滨工业大学;2014年

中国硕士学位论文全文数据库 前1条

1 王勇;基于点过程模型的连续语音关键词检测技术研究[D];解放军信息工程大学;2013年


  本文关键词:基于深度学习的汉语语音关键词检测方法研究,由笔耕文化传播整理发布。



本文编号:386162

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/386162.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8d7a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com