基于深度学习的藏语拉萨方言语音识别的研究
本文关键词:基于深度学习的藏语拉萨方言语音识别的研究
更多相关文章: 藏语语音识别 深度学习 长短时记忆网络 隐马尔可夫模型 Tandem特征
【摘要】:让机器听懂人类的话、根据人类的命令完成工作,这是许多科研人员多年来的努力方向。近些年随着计算机计算能力的提高以及大数据的出现,深度学习算法在各个领域取得了广泛的应用。深度学习网络是一种含有多隐含层的人工神经网络,在提取特征时,具有比传统声学特征提取器更好的表达能力。许多研究已经将深度学习算法应用到了语音识别系统当中,但是这种深度学习算法目前只应用于主流语言的语音识别中,还没有引入到藏语等少数民族语言的语音识别中。本文在藏语拉萨方言语音识别中引入深度学习算法,设计了面向藏语语音识别的语料库,采用深度学习模型--长短时记忆网络模型作为藏语声学特征提取器,然后应用隐马尔可夫模型(Hidden Markov Model,HMM)进行识别。论文主要工作与创新如下:1.建立了一个面向藏语语音识别的藏语语料库。首先设计了一个包含51个藏语常见字的文本语料,在对比了藏语与汉语的发音特点后,借助现有的汉语普通话标注方案SAMPA-SC,设计了藏语拉萨方言标注方案SAMPA-T,最后对藏语语料进行了录音和标注(4人参与录音,每人每个字读30遍,共6120个样本)。2.搭建了一个基于深度学习网络的藏语声学特征提取器。采用深度学习模型--长短时记忆(Long Short Term Memory,LSTM)网络模型,并将这种网络应用在藏语语音识别当中作为声学特征提取器。利用该网络输出语料库中51个字的后验概率,并将这51维输出激活与39维MFCC特征结合后经过PCA(Principal Component Analysis)算法降维,提取最重要的40维Tandem特征,然后将这些特征输入给HMM进行训练与识别。3.实现了结合长短时记忆网络与HMM的藏语语音识别。应用长短时记忆网络作为藏语声学特征提取器,然后应用HMM进行藏语识别。实验结果表明,在本文建立的语料库测试集中,本文提出的藏语语音识别方法能够达到80.56%的识别率。
【关键词】:藏语语音识别 深度学习 长短时记忆网络 隐马尔可夫模型 Tandem特征
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 引言9-13
- 1.1 研究背景及意义9
- 1.2 研究现状9-11
- 1.2.1 语音识别发展历史及研究现状9-11
- 1.2.2 藏语语音识别的研究现状11
- 1.3 本论文的结构11-12
- 1.4 本章小结12-13
- 第2章 藏语识别原理13-20
- 2.1 藏语语音识别系统结构13
- 2.2 语音信号处理与分析13-19
- 2.2.1 语音信号的数字化处理14
- 2.2.2 预处理14-15
- 2.2.3 特征提取15-19
- 2.3 本章小结19-20
- 第3章 基于HMM的语音识别研究20-27
- 3.1 HMM基本原理20-21
- 3.2 HMM模型的三个问题21-26
- 3.2.1 概率计算22-23
- 3.2.2 最优状态序列搜索23-24
- 3.2.3 参数估计24-26
- 3.3 本章小结26-27
- 第4章 深度学习模型27-36
- 4.1 深度学习简介27-28
- 4.2 深度学习和浅层学习28-29
- 4.3 深度学习的结构29-30
- 4.4 递归神经网络30-35
- 4.4.1 多层感知器30-31
- 4.4.2 递归神经网络31-32
- 4.4.3 长短时记忆网络32-35
- 4.5 本章小结35-36
- 第5章 LSTM-HMM模型的藏语语音识别实验36-49
- 5.1 藏语发音介绍36-39
- 5.1.1 藏文的介绍36-37
- 5.1.2 藏语拉萨方言拼音的声韵母37-38
- 5.1.3 藏语的声调38-39
- 5.2 语音样本库的建立39-44
- 5.2.1 文本语料库的设计39
- 5.2.2 语音语料的录制39-41
- 5.2.3 语料的切分和标注41-44
- 5.3 语音数据特征提取44-45
- 5.4 递归神经网络配置45-47
- 5.5 实验结果47-48
- 5.6 本章小结48-49
- 第6章 总结与展望49-51
- 6.1 论文总结49
- 6.2 下一步的工作展望49-51
- 参考文献51-55
- 攻读学位期间的研究成果55-56
- 致谢56
【相似文献】
中国期刊全文数据库 前10条
1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
2 邢文;语音识别[J];个人电脑;2000年02期
3 ;语音识别的真相[J];个人电脑;2001年12期
4 ;语音识别渐入佳境[J];个人电脑;2002年03期
5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
6 ;语音识别[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:683257
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/683257.html