基于隐藏单元条件随机场的多知识源融合改进自动语音识别置信度
发布时间:2018-05-27 11:27
本文选题:语音识别 + 置信度估计 ; 参考:《电子与信息学报》2014年08期
【摘要】:鉴于自动语音识别(ASR)中置信度估计困难的问题,该文提出一种基于多知识源融合的策略来提高置信度的鉴别能力。具体做法是,首先选择关于识别结果的声学层、语言层和语义层等不同层次的信息,然后通过实验确定这些信息不同的组合方式,并以此为特征在隐藏单元条件随机场(Hidden-units Conditional Random Fields,HuCRFs)框架下计算识别结果的条件概率。最后将HuCRFs条件概率作为语音识别结果置信度的新的估计。实验首先证明了HuCRFs条件概率是比归一化的网格后验概率鉴别能力更强的一种置信度估计方法。同时基于HuCRFs条件概率置信度,对解码器一遍识别得到的网格重新搜索最佳候选序列,取得了相对一遍识别最佳候选序列绝对近2%的字错误率(CER)下降。同时,该文也对比了基于HuCRFs条件概率搜索的最佳候选序列和基于长语言模型网格重估的最佳候选序列的性能,进一步证明了使用HuCRFs条件概率作为置信度估计是一种更好的选择。
[Abstract]:In view of the difficulty of confidence estimation in automatic speech recognition (ASR), this paper proposes a multi-source fusion strategy to improve the confidence identification ability. The specific approach is to first select different levels of information about the results of the recognition, such as the acoustic layer, the language layer and the semantic layer, and then, through experiments, determine the different combinations of these information. The conditional probability of recognition results is calculated under the framework of Hidden-units Conditional Random FieldsHuCRFs (Hidden-units Conditional Random FieldsHuCRFs). Finally, the HuCRFs conditional probability is used as a new estimation of the confidence of speech recognition results. Firstly, it is proved that the HuCRFs conditional probability is a confidence estimation method which is more powerful than the normalized grid posteriori probability discriminant. At the same time, based on the confidence degree of HuCRFs conditional probability, the best candidate sequence is re-searched for the mesh recognized by the decoder in one pass, and the absolute error rate of nearly 2% is reduced relative to the best candidate sequence in one pass recognition. At the same time, the performance of the best candidate sequence based on HuCRFs conditional probability search and the best candidate sequence based on long language model mesh reestimation is compared. It is further proved that using HuCRFs conditional probability as confidence estimation is a better choice.
【作者单位】: 中国科学院声学研究所;
【基金】:国家自然科学基金(10925419,90920302,61072124,11074275,11161140319,91120001,61271426) 中国科学院战略性先导科技专项(XDA06030100,XDA06030500) 国家863计划项目(2012AA012503) 中科院重点部署项目(KGZD-EW-103-2)资助课题
【分类号】:TN912.34
【共引文献】
相关期刊论文 前1条
1 李海洋;韩纪庆;郑贵滨;郑铁然;;语音关键词检测中置信测度方法研究综述[J];智能计算机与应用;2014年02期
相关博士学位论文 前1条
1 李宝祥;语音关键词检索若干问题的研究[D];北京邮电大学;2013年
相关硕士学位论文 前1条
1 王勇;基于点过程模型的连续语音关键词检测技术研究[D];解放军信息工程大学;2013年
【相似文献】
相关博士学位论文 前1条
1 熊英;中文自然语言理解中基于条件随机场理论的词法分析研究[D];上海交通大学;2009年
相关硕士学位论文 前4条
1 包森成;基于统计模型的韵律结构预测研究[D];北京邮电大学;2009年
2 郑明东;语音关键词识别技术研究[D];广西师范大学;2012年
3 张晓斐;分布式视频编码的边信息融合与重构[D];上海交通大学;2010年
4 吴楠;基于主动学习的语音情感识别研究[D];天津师范大学;2012年
,本文编号:1941866
本文链接:https://www.wllwen.com/kejilunwen/wltx/1941866.html