当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度学习的语音识别应用研究

发布时间:2017-07-03 10:23

  本文关键词:基于深度学习的语音识别应用研究


  更多相关文章: 语音识别 深度学习 特征提取 声学建模 深度神经网络 卷积神经网络


【摘要】:随着智能家居、车载语音系统以及各种语音识别软件流行,语音识别逐渐走进人们的视野,凭借其实用性准确性得到了广大用户的喜爱,同时语音识别作为人机交互的重要接口,成为人工智能领域研究的重点。在大数据的背景下,深度学习得到长足的发展,由于它对海量数据超强的建模能力,被广泛应用与图像、语音识别,并取得了惊人的效果。考虑到理论意义和实用价值,在深度学习的基础上研究语音识别是一个可行的方向。深度学习是一种多层非线性变换网络,通过大量的有监督参数调整计算来建模数据间的复杂关系。本文详细介绍了语音识别以及深度学习的基本原理,然后阐述了怎样将深度学习高效的应用与语音识别中。 1、基于深度神经网络的声学特征提取研究 深度神经网络是一种有监督训练的多层网络,主要用于分类问题,但是截取它的一部分训练好的网络用于特征转换,新生成的特征在语音识别上相比于MFCC特征也有很好的表现。本文主要从深度神经网络的预训练、参数调整、系统优化方面进行了研究,并在Kaldi平台上搭建了用于语音特征提取的深度神经网络,从MFCC特征中提取鲁棒性区分性更强的语音特征,并用这些新特征训练基于GMM-HMM的声学模型搭建语音识别系统,最好的DNN网络与原始MFCC训练的声学模型搭建的系统相比,在词错误率和句错误率上下降了1.98%和4.21% 2、基于深度神经网络的声韵母属性提取研究 声韵母属性属于语音属性的一种,它可以看做是语音识别中比声韵母更小的基元,用这种粒度更小的基元更能细致的描述语音现象,而且这种方法在以前语音基于概率统计的基础上加入了语音知识的东西,提高系统的识别性能。本文主要研究了语音属性的基础理论,并从语音属性的提取入手,结合了深度学习的原理,搭建了语音属性提取器,用提取出的语音属性搭建了基于GMM-HM M和基于DNN-HMM的声韵母识别器,通过与MFCC搭建的声韵母识别器比较,在声韵母识别率上分别有0.65%和1.37%的提升,通过与MFCC搭建的语音识别器比较,在词识别错误率上有5.61%的下降。 3、基于深度学习的声学建模研究 有监督的深度网络本质上是区分性模型,通过用建模能力强大的深度网络取代浅层GMM模型做状态输出,并与HMM模型结合训练声学模型。在Kaldi上分别实现了基于GMM-HMM、基于DNN-HMM和基于CNN-HMM,并在863语料上通过实验证明了基于DNN-HMM和基于CNN-HMM的声学模型搭建的系统比GMM-HMM的系统在词识别错误率上分别有7.98%和9.01%的下降。并对三种方法进行了比较分析。
【关键词】:语音识别 深度学习 特征提取 声学建模 深度神经网络 卷积神经网络
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.34;TP183
【目录】:
  • 摘要4-6
  • ABSTRACT6-10
  • 第一章 绪论10-14
  • 1.1 语音识别发展概述10
  • 1.2 语音识别的发展与现状10-11
  • 1.3 深度学习对语音识别的意义11-12
  • 1.4 研究问题及内容12-13
  • 1.4.1 研究问题12
  • 1.4.2 研究内容12-13
  • 1.5 论文结构13-14
  • 第二章 语音识别相关理论研究14-31
  • 2.1 语音识别基本原理14
  • 2.2 声学特征分析14-15
  • 2.3 声学模型15-17
  • 2.4 语言模型17-18
  • 2.5 解码器介绍18-20
  • 2.6 深度学习的基础理论20-30
  • 2.6.1 深度学习的背景20
  • 2.6.2 深度学习的模型20-22
  • 2.6.3 深度学习的模型构成22-30
  • 2.7 语音识别技术面临的挑战30
  • 2.8 本章小结30-31
  • 第三章 基于深度神经网络的语音特征提取31-40
  • 3.1 深度神经网络的基本原理31-37
  • 3.1.1 网络训练算法32-36
  • 3.1.2 深度神经网络训练中用到的技术36-37
  • 3.2 基于深度神经网络的声学特征提取实验37-39
  • 3.2.1 实验配置37-38
  • 3.2.2 深度特征的提取38-39
  • 3.2.3 实验的结果39
  • 3.3 本章总结39-40
  • 第四章 基于深度神经网络的语音属性的提取40-49
  • 4.1 语音属性的研究背景40
  • 4.2 语音属性提取理论基础40-41
  • 4.3 基于DNN-ASAT的声韵母识别41-45
  • 4.3.1 声韵母属性设计实现41-44
  • 4.3.2 DNN-ASAT的系统实现44-45
  • 4.4 语音属性提取器实验45-46
  • 4.4.1 实验数据准备45
  • 4.4.2 实验步骤45-46
  • 4.5 实验结果与分析46-48
  • 4.5.1 实验结果46-48
  • 4.5.2 实验结果分析48
  • 4.6 本章小结48-49
  • 第五章 基于深度学习语音识别系统搭建49-55
  • 5.1 深度学习在声学模型中的应用背景49
  • 5.2 基于深度学习的声学模型训练49-51
  • 5.2.1 基于深度神经网路的声学模型训练49-50
  • 5.2.2 基于卷积神经网路的声学模型训练50-51
  • 5.3 深度学习的声学模型训练实验51-54
  • 5.3.1 实验步骤51-52
  • 5.3.2 实验结果分析52-54
  • 5.4 三种方法的比较54
  • 5.5 本章总结54-55
  • 第六章 总结与展望55-57
  • 6.1 课题总结55-56
  • 6.2 未来展望56-57
  • 参考文献57-59
  • 致谢59-60
  • 作者攻读学位期间发表的学术论文目录60

【参考文献】

中国期刊全文数据库 前2条

1 李海峰;李纯果;;深度学习结构和算法比较分析[J];河北大学学报(自然科学版);2012年05期

2 余凯;贾磊;陈雨强;徐伟;;深度学习的昨天、今天和明天[J];计算机研究与发展;2013年09期


  本文关键词:基于深度学习的语音识别应用研究


  更多相关文章: 语音识别 深度学习 特征提取 声学建模 深度神经网络 卷积神经网络




本文编号:513312

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/513312.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户9b7f0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com