基于深度学习的维语语音识别研究
本文关键词:基于深度学习的维语语音识别研究,由笔耕文化传播整理发布。
【摘要】:语音识别就是将原始语音信号识别成相对应的文本或者其它形式的可以被计算机所处理的信息。语音识别技术是人工智能领域一个重要的研究方向,具有很高的研究价值和商业价值。近年来,随着深度学习在机器学习和模式识别领域的兴起,以及深度学习所具备的超强建模能力,能从海量的数据里“学习”到有效的信息,迅速吸引了众多国内外研究者的关注。深度学习也被应用到语音识别领域,并且取得了很好的效果,基于深度神经网络-隐马尔科夫模型(Deep Neural Network-Hidden Markov Model, DNN-HMM)的语音识别框架更是迅速取代了传统基于高斯混合模型(Gaussian Mixture Model, GMM)-隐马尔科夫模型的框架,成为当今语音识别系统的标准配置。以往语音识别所关注的语种主要是那些使用人口多或普及率高的语言,比如汉语、英语、阿拉伯语等,研究过程中所开发的技术成果在不经过太大改动的情况下就可以直接被推广到具有相似特点的语种中。经过几十年的发展,这些语种的语音识别技术发展已经日趋成熟。然而一些像维吾尔语这样的小语种的语音识别技术在国外却没有得到广泛的关注和发展。随着新疆经济的快速发展,新疆也变的越来越开放,关于维吾尔语语音识别系统开发工作的必要性及极其广阔的市场前景是不可忽略的。本文对基于深度学习的网络模型及其建模方法做了详细分析,并将基于深度学习的语音识别技术用在了维吾尔语的识别上。1、研究了基于DNN-HMM的声学建模声学模型(Acoustic Model, AM)是语音识别系统最重要的组成部分,一个好的声学模型可以提高语音识别的系统性能。本文首先介绍了深度神经网络的网络结构以及算法,然后分别用300小时和500小时的维吾尔语语音数据训练基于深度神经网络结合隐马尔科夫模型的声学模型。通过实验发现500小时的训练集训出的声学模型比300小时的训练集训出的声学模型在词识别错误率上相对下降了3.03%,这说明训练集合越大声学模型识别率越高。2、研究了基于LSTM-HMM的声学建模介绍了循环神经网络(Recurrent neural Network, RNN),但由于RNN存在后面时间节点对前面时间节点感知力下降导致的梯度消失问题,因此研究了长短期记忆(Long-Short Term Memory, LSTM)网络。通过实验发现LSTM-HMM声学模型较DNN-HMM声学模型在词识别错误率上相对下降了12.49%,这说明LSTM-HMM声学模型较DNN-HMM声学模型有很大的性能提升。3、维语语言模型优化由于维吾尔语为黏着性语言,黏着语超大词汇量会带来传统整词语言模型数据稀疏、鲁棒性不强等问题。本文通过子词建模的方法对维语语言模型进行了优化,缓解了黏着语超大词汇量带来的传统整词语言模型数据稀疏性、鲁棒性不强等问题,使词识别错误率相对下降了2.4%。
【关键词】:语音识别 深度学习 声学建模 深度神经网络 长短期记忆网络 语言模型
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TN912.34
【目录】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 绪论10-18
- 1.1 语音识别概述10-11
- 1.2 语音识别的发展与现状11-13
- 1.3 深度学习对语音识别的意义13-14
- 1.4 维语语音识别14-16
- 1.4.1 维吾尔语的特点14-15
- 1.4.2 维语语音识别的发展现状及研究意义15-16
- 1.5 本文的主要内容及组织结构16-18
- 1.5.1 主要内容16
- 1.5.2 组织结构16-18
- 第二章 语音识别基础理论18-36
- 2.1 语音识别基本理论18-19
- 2.2 语音信号的预处理19-21
- 2.2.1 语音信号预加重19
- 2.2.2 语音信号加窗分帧处理19-20
- 2.2.3 语音信号端点检测20-21
- 2.3 语音识别系统框架21-35
- 2.3.1 声学特征提取22-25
- 2.3.2 声学模型25-32
- 2.3.3 语言模型32-34
- 2.3.4 解码器34-35
- 2.4 本章小结35-36
- 第三章 基于DNN-HMM的声学建模36-45
- 3.1 深度学习发展36
- 3.2 感知器36-38
- 3.3 多层感知器网络38-42
- 3.3.1 BP算法39-42
- 3.4 深度神经网络DNN-HMM声学建模42
- 3.5 基于DNN的声学模型训练42-44
- 3.5.1 网络参数配置43
- 3.5.2 训练步骤43
- 3.5.3 实验结果及分析43-44
- 3.6 本章小结44-45
- 第四章 基于循环神经网络的声学建模45-56
- 4.1 循环神经网络45-48
- 4.1.1 单向RNN45-46
- 4.1.2 双向RNN46-48
- 4.2 基于LSTM的循环神经网络48-54
- 4.2.1 LSTM前向49-50
- 4.2.2 LSTM后向50-54
- 4.3 基于RNN的声学模型训练54-55
- 4.3.1 网络参数配置54
- 4.3.2 实验结果与分析54-55
- 4.4 本章小结55-56
- 第五章 维语语言模型优化56-61
- 5.1 N-Gram介绍56-57
- 5.2 整词语言模型面临的问题57-58
- 5.3 子词语言模型58-59
- 5.4 实验结果与分析59-60
- 5.5 本章小结60-61
- 第六章 总结与展望61-63
- 6.1 总结61
- 6.2 展望61-63
- 参考文献63-66
- 致谢66-67
【相似文献】
中国期刊全文数据库 前10条
1 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
2 邢文;语音识别[J];个人电脑;2000年02期
3 ;语音识别的真相[J];个人电脑;2001年12期
4 ;语音识别渐入佳境[J];个人电脑;2002年03期
5 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
6 ;语音识别[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
8 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
9 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
10 韩纪庆;张磊;郑铁然;;网络环境下的语音识别方法[J];计算机科学;2005年01期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:275600
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/275600.html