基于语音样例查询的关键词识别方法研究
本文关键词:基于语音样例查询的关键词识别方法研究,由笔耕文化传播整理发布。
【摘要】:基于语音样例查询的关键词识别是关键词识别的一个重要分支,该类关键词识别不需要考虑关键词对应的文本信息就能够从音频数据中快速地搜索并返回与查询关键词相关语音段。因此,该方法主要应用于缺乏语音资源和语音学知识的小语种。近年来,随着国际化进程的不断加快,针对小语种的语音处理特别是关键词识别迅速进入人们的视野,成为现阶段语音处理的一个热点问题。本论文主要针对该领域的两个问题进行研究:第一,相对于传统声学特征,具有更高可区分性特征的研究:第二,针对采用隐马尔可夫模型(Hidden Markov Model,HMM)的关键词建模识别,研究样本稀缺情况下关键词模型的训练方法。近年来,随着学习方法的不断改进,深度神经网络(Deep Neural Network,DNN)在模式识别中得到了诸多成功的应用,引起了学术界广泛的关注。在语音识别中,基于DNN状态输出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基线系统大大降低了语音识别词错误率。而由具有狭窄中间层,也称为瓶颈层(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基线系统中也取得了接近DNN-HMM模型的语音识别词错误率。本文在相同的关键词识别框架下比较两种不同的特征:感知线性预测(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高区分性的特征以提高识别系统性能。在基于语音样例查询的关键词识别中,采用统计建模的方法可以提升模型的稳健性。然而,在该类关键词识别中,关键词训练样本的数量极度缺乏,仅有十到二十个左右甚至更少。在这种情况下,如何更加充分的利用关键词样本中的包含的有效信息非常重要。本文在HMM识别框架中,使用最大后验概率(Maximum a Posterior)方法建立关键词模型,提高了识别系统在资源稀缺情况下的识别性能。另外,还验证了三种模型训练方法在关键词变化的情况下的有效性。本文提出的算法在标准的TIMIT及藏语数据库上进行了实验,从实验结果上证明了这些算法的有效性。
【关键词】:关键词识别 深度神经网络 BN特征 隐马尔科夫模型 最大后验概率
【学位授予单位】:中国科学技术大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 绪论10-18
- 1.1 研究背景10-11
- 1.2 研究历史和现状11-13
- 1.3 关键词识别系统框架13-15
- 1.4 关键词识别系统的性能评价指标15-16
- 1.5 论文的研究内容16
- 1.6 文的结构安排16-18
- 第2章 基于DTW的关键词识别方法18-32
- 2.1 DTW框架介绍18-26
- 2.1.1 后验概率图生成19-22
- 2.1.2 模式匹配算法22-25
- 2.1.3 得分融合25-26
- 2.2 特征提取26-30
- 2.2.1 PLP特征26-29
- 2.2.2 特征规整29-30
- 2.3 实验配置30-31
- 2.3.1 数据库30
- 2.3.2 PLP特征30-31
- 2.3.3 模型参数31
- 2.4 实验结果及分析31
- 2.5 本章小结31-32
- 第3章 基于BN特征的关键词识别方法研究32-48
- 3.1 BN神经网络32-41
- 3.1.1 BN特征训练33-38
- 3.1.2 BN特征提取38-39
- 3.1.3 改进的BN特征39-41
- 3.2 基于DTW的识别框架研究41-44
- 3.2.1 样本联合41-42
- 3.2.2 距离函数42-44
- 3.3 实验配置44
- 3.3.1 BN特征44
- 3.4 实验结果及分析44-47
- 3.4.1 特征对比试验44-45
- 3.4.2 隐层数量实验45
- 3.4.3 BN层位置实验45
- 3.4.4 BN层激活函数实验45-46
- 3.4.5 距离度量实验46
- 3.4.6 样本联合与得分融合比较46-47
- 3.5 本章小结47-48
- 第4章 基于HMM模型的特征及方法研究48-60
- 4.1 HMM简介48-51
- 4.1.1 前向算法49-50
- 4.1.2 Baum-Welsh算法50-51
- 4.2 模型训练方法51-54
- 4.2.1 基于ML的模型训练方法51-52
- 4.2.2 改进的ML模型训练方法52
- 4.2.3 基于MAP的模型训练方法52-54
- 4.3 音高特征54-55
- 4.4 实验配置55-56
- 4.4.1 数据库55-56
- 4.4.2 特征提取56
- 4.4.3 模型参数56
- 4.5 实验结果及分析56-58
- 4.5.1 特征对比实验57
- 4.5.2 模型生成实验57-58
- 4.6 本章小结58-60
- 第5章 总结与展望60-62
- 5.1 论文总结60
- 5.2 研究展望60-62
- 参考文献62-68
- 致谢68-70
- 攻读硕士学位期间发表的论文70
【相似文献】
中国期刊全文数据库 前10条
1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期
2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期
3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期
4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期
5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期
6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期
7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期
8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期
9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期
10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期
中国重要会议论文全文数据库 前9条
1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年
2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年
3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年
6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年
7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年
9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年
中国重要报纸全文数据库 前5条
1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年
2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年
3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年
4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年
5 ;与“小超人”对话[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年
2 陈丽萍;说话人确认中语音段差异建模相关问题的研究[D];中国科学技术大学;2016年
3 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年
4 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年
5 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年
6 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年
7 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年
8 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年
9 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
10 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年
中国硕士学位论文全文数据库 前10条
1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年
2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年
3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年
4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年
5 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年
6 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年
7 赵蓉蓉;基于计算听觉场景分析的单通道语音盲分离技术[D];太原理工大学;2016年
8 崔瑞莲;语种识别中的语音段表示方法研究[D];中国科学技术大学;2016年
9 刘学;基于语音样例查询的关键词识别方法研究[D];中国科学技术大学;2016年
10 周慧;基于PAD三维情绪模型的情感语音转换与识别[D];西北师范大学;2009年
本文关键词:基于语音样例查询的关键词识别方法研究,,由笔耕文化传播整理发布。
本文编号:361561
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/361561.html