藏语语音深度特征提取及语音识别研究
本文关键词:藏语语音深度特征提取及语音识别研究
更多相关文章: 语音识别 隐马尔科夫模型 稀疏自动编码器 深度置信网 声学模型
【摘要】:随着对语言信息处理研究工作的不断深入,藏文信息处理技术也从文字处理逐步转向语言信息处理。藏文自动分词和词性标注是进行藏语语义理解、藏文信息检索、藏语与其他语种之间的机器翻译等的首要问题。藏语是我国一支重要的少数民族语种,藏语语音识别技术的研究与发展不仅可以使得不同民族之间的语言进行无障碍的沟通交流,也可以促使藏区经济、文化、教育等各领域的发展。而目前藏语语音识别研究仍处于初期阶段。进入21世纪,深度学习逐渐成为语音特征提取的新的研究方向。深度学习采取多层非线性变换技术从原始数据中提取由低到高、由具体到抽象、由一般到特征语义的特征。本文将深度学习应用到藏语语音识别研究当中,首先介绍藏语语音识别的研究现状、语音识别的基本原理及其深度学习的相关理论,并着重阐述了深度特征提取模型在藏语语音识别的中的应用。1.基于深度学习的藏语语音特征提取研究深度学习能够克服人工设计特征会使原始语音数据特征丢失的缺点,学习出人工无法定义的特征。因此,基于大数据和深度学习来学习特征,更能反映数据的丰富内在特征信息。本文主要使用稀疏自动编码器和深度置信网两种模型来提取藏语语音特征。从模型原理展开,就藏语特征提取模型的无监督预训练和有监督的微调方法做了详细描述。2.基于深度特征的藏语语音识别声学模型研究基于深度学习提取的特征,使用GMM-HMM方法建立声学模型分别对音素和音节识别。实验证明,与MFCC特征相比,基于SA+MFCC特征的音素识别率最高为69.05%,提高10.22%,音节识别率为48.54%,提高了24.6个百分点;基于DBN+MFCC特征的音素识别率最高为69.46%,提高10.63%,音节识别率为49.04%,提高了25.1%,并且DBN模型使用更少的迭代次数,因此,DBN模型效率更高。在以后的藏语语音识别研究工作中,我们可以采用DBN模型进行藏语连续语音识别的深度特征提取。
【关键词】:语音识别 隐马尔科夫模型 稀疏自动编码器 深度置信网 声学模型
【学位授予单位】:中央民族大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.3
【目录】:
- 摘要3-5
- ABSTRACT5-11
- 第一章 绪论11-15
- 1.1 研究背景与意义11-12
- 1.2 藏语语音识别技术的发展现状12-13
- 1.3 论文创新点13
- 1.4 本文主要内容及结构13-15
- 第二章 语音识别基本原理和相关理论15-27
- 2.1 人脑语音识别机理15-16
- 2.2 数字语音信号预处理16
- 2.3 数字语音信号的特征提取16-17
- 2.3.1 时域特征16-17
- 2.3.2 频域特征17
- 2.4 声学模型17-23
- 2.4.1 隐马尔科夫模型(HMM)18-22
- 2.4.2 GMM-HMM声学模型22-23
- 2.5 语言模型23-24
- 2.6 藏语语音基本特点24-27
- 第三章 基于深度学习的藏语语音特征提取研究27-37
- 3.1 深度学习的基本思想和常用方法27-28
- 3.1.1 深度学习的基本思想27
- 3.1.2 深度学习的常用模型27-28
- 3.2 稀疏自动编码器模型28-32
- 3.2.1 稀疏自动编码器原理28-31
- 3.2.2 基于稀疏自动编码器的藏语深度特征提取模型31-32
- 3.3 深度置信网模型32-37
- 3.3.1 深度置信网模型原理32-35
- 3.3.2 基于深度置信网的藏语深度特征提取模型35-37
- 第四章 基于深度特征的藏语语音识别声学模型研究37-41
- 4.1 建模单元的选择37-38
- 4.2 HMM模型训练38
- 4.2.1 triphones模型训练38
- 4.3 基于深度特征的声学建模38-39
- 4.4 基于深度特征和人工特征相结合的声学建模39-41
- 第五章 仿真与实验41-48
- 5.1 语音样本库的建立41-42
- 5.1.1 语音信号预处理41-42
- 5.2 基于MFCC特征的声学模型实验结果42
- 5.2.1 音素、音节识别结果42
- 5.3 基于深度特征的声学模型实验结果42-48
- 5.3.1 基于SA的音素、音节识别结果42-44
- 5.3.1.1 实验设置42
- 5.3.1.2 实验结果42-44
- 5.3.2 基于DBN的音素、音节识别结果44-48
- 5.3.2.1 实验设置44-45
- 5.3.2.2 实验结果45-48
- 第六章 总结与展望48-50
- 6.1 总结48
- 6.2 展望48-50
- 参考文献50-52
- 致谢52-53
- 攻读学位期间发表的学术论文目录53
【相似文献】
中国期刊全文数据库 前10条
1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
2 邢文;语音识别[J];个人电脑;2000年02期
3 ;语音识别的真相[J];个人电脑;2001年12期
4 ;语音识别渐入佳境[J];个人电脑;2002年03期
5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
6 ;语音识别[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:1001385
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1001385.html