基于语音关键词检测的人机交互研究
本文关键词:基于语音关键词检测的人机交互研究,由笔耕文化传播整理发布。
【摘要】:人机交互(Human-Computer Interaction, HCI)是研究人、计算机及它们之间相互影响的技术,包括从键盘、鼠标到语音识别、手势输入、感觉反馈等一系列交互方式。随着人机交互技术的不断发展,人们发现语音是人与计算机之间进行交互的最方便快捷方式。而语音关键词检测是语音识别的一种特殊形式,其主要作用是从连续的语音流中检测出在实际应用中所需要的少量特定词汇且具有资源消费少、识别率高和实用强的特点。因此关键词检测技术有着广泛的应用。目前语音关键词检测系统主要有三种:基于垃圾模型的关键词检测系统、基于音素/音节的关键词检测系统和基于连续语音识别的关键词检测系统。本论文中主要研究基于连续语音识别的关键词检测系统的相关技术。论文主要内容如下:(1)在连续语音识别理论部分,主要介绍语音信号的前端处理、声学模型、语言学模型和搜索解码。语音信号的前端处理部分主要包括端点检测、预加重、分帧和声学特征参数提取。本论文中提取的特征参数是梅尔倒谱系数(Mel-Frequence Cepstral Coefficients,MFCC),为了提高其鲁棒性和区分性,将提取的MFCC参数进行线性区分性(Linear Discriminant Analysis,LDA)变换。声学模型部分主要介绍了隐马尔科夫模型(Hidden Markov Models,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)和子空间混合高斯模型(Subspace Gaussian Mixture Model,SGMM),并将SGMM-UBM (Subspace Gaussian Mixture Model-Universal Background Model)模型替换传统的]HMM-GMM模型建立声学模型。语言学模型主要介绍基于文法的语言模型和基于统计的语言模型,本论文中使用的是基于统计模型的三元语言模型。搜索解码部分主要介绍Viterbi算法及解码之后的输出结果。(2)在语音关键词检测部分,主要介绍Lattice网格结构、关键词搜索算法、基于Lattice的后验概率置信度计算及改进、关键词的输出规则和系统性能评价标准。在计算置信度时,引入了最小编辑距离(Minimum Edit Distance,MED)字符串相似度函数,其主要作用是用来对检测到的错误进行惩罚。关键词搜索算法主要介绍了动态规划算法和令牌传递算法。(3)搭建了一个基于语音关键词检测的人机交互系统,主要利用的工具是Kaldi,数据库是基于清华大学的THCHS-30语音库。通过仿真实验分析了不同算法对系统性能的影响。
【关键词】:关键词检测 连续语音识别 声学模型 语言学模型 关键词搜索算法
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3;TN912.34
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-9
- 序言9-12
- 1 引言12-18
- 1.1 研究背景与意义12-13
- 1.2 发展历史与现状13-15
- 1.3 论文的主要内容与组织结构15-18
- 2 连续语音识别原理18-42
- 2.0 连续语音识别系统基本框架18-19
- 2.1 语音信号的前端处理19-26
- 2.1.1 语音信号的端点检测19-21
- 2.1.2 语音信号的预加重21
- 2.1.3 语音信号的分帧21-22
- 2.1.4 声学特征参数提取22-26
- 2.2 声学层模型26-37
- 2.2.1 隐马尔科夫模型HMM26-32
- 2.2.2 混合高斯模型GMM32-33
- 2.2.3 子空间混合高斯模型SGMM33-37
- 2.3 语言模型37-39
- 2.3.1 基于文法的语言模型37-38
- 2.3.2 基于统计的语言模型38-39
- 2.4 搜索解码39-42
- 2.4.1 Viterbi搜索解码39-40
- 2.4.2 搜索解码输出40-42
- 3 基于连续语音识别的关键词检测技术42-50
- 3.1 基于连续语音识别的关键词检测系统框架42
- 3.2 网格结构42-44
- 3.3 关键词搜索算法44-46
- 3.3.1 动态规划算法44-45
- 3.3.2 令牌传递算法45-46
- 3.4 基于网格后验概率的置信度计算46
- 3.5 置信度的使用与改进46-48
- 3.5.1 置信度的使用47
- 3.5.2 置信度的改进47-48
- 3.6 关键词输出准则48
- 3.7 系统性能评价标准48-50
- 4 基于语音关键词检测的人机交互平台实现50-69
- 4.1 数据集及工具介绍50-52
- 4.1.1 数据集及汉语言特点50-51
- 4.1.2 Kaldi工具介绍51-52
- 4.2 数据准备52-57
- 4.2.1 语音数据相关52-54
- 4.2.2 语言数据相关54-57
- 4.3 连续语音识别器的具体实现57-60
- 4.3.1 预处理与特征提取57
- 4.3.2 声学模型的训练57-59
- 4.3.3 语言模型的训练59
- 4.3.4 最佳路径搜索59-60
- 4.4 关键词搜索60-61
- 4.5 置信度确认61-62
- 4.6 基于语音关键词检测的实时人机交互系统62-65
- 4.7 基于语音关键词检测的人机交互平台性能评估实验65-67
- 4.8 实验脚本清单67-69
- 5 总结与展望69-71
- 5.1 论文工作总结69-70
- 5.2 未来工作展望70-71
- 参考文献71-75
- 作者简历及攻读硕士学位期间取得的研究成果75-77
- 学位论文数据集77
【相似文献】
中国期刊全文数据库 前10条
1 林道发,杨家沅;连续语音识别和语音翻译[J];计算机应用与软件;1994年02期
2 赵庆卫,王作英,陆大};基于音节间相关识别单元的汉语连续语音识别算法[J];清华大学学报(自然科学版);1999年09期
3 刘加;汉语大词汇量连续语音识别系统研究进展[J];电子学报;2000年01期
4 宋战江,郑方,徐明星,武健,吴文虎;汉语连续语音识别系统与知识导引的搜索策略研究[J];自动化学报;2000年04期
5 林生佑,金一庆;连续语音识别的线性词典动态规划研究[J];计算机应用研究;2001年01期
6 郝杰,李星;基于经典隐马尔可夫模型的汉语连续语音识别系统[J];电子与信息学报;2002年07期
7 谢磊,I.Cravyse,蒋冬梅,赵荣椿,H.Sahli,Werner Verhelst,J Cornelis,Ignace Lemahieu;一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统[J];计算机工程与应用;2003年16期
8 谢磊,I Ravyse,蒋冬梅,赵荣椿,H Sahli,W Verhelst,J Cornelis;一种基于数据筛的音频视频连续语音识别系统[J];计算机应用;2003年07期
9 严斌峰,朱小燕;基于联合得分的连续语音识别确认方法[J];软件学报;2003年12期
10 李春,王作英;汉语连续语音识别中一种新的音节间相关识别单元[J];声学学报;2003年02期
中国重要会议论文全文数据库 前10条
1 马芹;苏广川;;基于音节分割的连续语音识别方法的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
2 赵庆卫;王作英;陆大獾;;音节间相关的识别单元在连续语音识别中的应用[A];第五届全国人机语音通讯学术会议论文集[C];1998年
3 俞一彪;顾晓东;赵鹤鸣;;基于关键词的句法分析及在连续语音识别中的应用[A];第九届全国信号处理学术年会(CCSP-99)论文集[C];1999年
4 李宗葛;;关于汉语连续语音识别的思考[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
5 林志伟;徐波;江源富;徐东昕;黄泰翼;;汉语连续语音识别系统的研究[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 计天颖;王作英;陆大金;;有限命令集连续语音识别[A];第三届全国人机语音通讯学术会议论文集[C];1994年
7 柴海新;吴文虎;方棣棠;;连续语音识别的研究和汉语数字连呼系统的实现[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 张向东;刘建;俞铁城;;基于声韵母转移模型的汉语特定人无限词汇连续语音识别研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
9 张树武;徐波;黄泰翼;;汉语大词汇/连续语音识别语言建模技术分析[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 郑方;徐明星;吴文虎;;连续语音识别中的搜索策略[A];第五届全国人机语音通讯学术会议论文集[C];1998年
中国博士学位论文全文数据库 前1条
1 徐望;连续语音识别的稳健性技术研究[D];解放军信息工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 许彦敏;藏语连续语音识别技术研究及系统实现[D];中央民族大学;2015年
2 李敏;基于语音关键词检测的人机交互研究[D];北京交通大学;2016年
3 陈奇川;基于词网语言模型的连续语音识别系统的研究与实现[D];厦门大学;2009年
4 张利平;汉语连续语音识别系统的研究与实现[D];西北大学;2010年
5 湛宗儒;连续语音识别算法研究及在嵌入式系统上的实现[D];武汉理工大学;2010年
6 刘盈;大词表连续语音识别系统的研究与实现[D];清华大学;2005年
7 李原;小词汇量连续语音识别系统的研究[D];西南大学;2008年
8 薛小燕;基于动态贝叶斯网络的连续语音识别研究[D];解放军信息工程大学;2010年
9 张宝奇;基于切分的汉语连续语音识别技术研究[D];解放军信息工程大学;2010年
10 卜素亮;非特定人连续语音识别技术研究与应用[D];复旦大学;2011年
本文关键词:基于语音关键词检测的人机交互研究,,由笔耕文化传播整理发布。
本文编号:355929
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/355929.html