基于卷积神经网络的语音识别研究
本文关键词: 语音识别 声学模型 声学特征 深度卷积神经网络 时-频谱 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文
【摘要】:近年,随着深度神经网络(Deep Neural Network,DNN)在语音识别中的成功应用,研究人员陆续展开了对其他网络结构的探索。卷积神经网络(Convolutional Neural Network,CNN)凭借其特殊的网络结构和强大的特征学习能力,吸引了许多学者对其进行深入研究。目前,在声学模型构建和声学特征提取中,CNN的潜力还有待进一步挖掘。本文从语音识别基本原理出发,以声学模型和声学特征为切入点,主要研究了深度卷积神经网络在语音识别任务中的应用:(1)研究了基于深度卷积神经网络的声学建模,本文从模型结构、训练算法等方面深入对比分析了 Deep CNN、DNN以及GMM在声学建模中的应用,阐述了 CNN用于描述HMM状态输出概率分布的可行性,着重研究了不同网络深度下CNN的性能表现。应用CNTK和Kaldi开源语音识别平台分别实现了基于GMM-HMM、DNN-HMM以及不同深度的CNN-HMM声学模型的识别系统,在850人实验数据集上通过实验表明:2卷积层的CNN-HMM声学模型较DNN-HMM、GMM-HMM声学模型在音素误识率上有着8.29%和36.89%的相对降低,6卷积层的CNN-HMM声学模型较2卷积层的CNN-HMM声学模型在音素误识率上有着8.13%的相对降低。(2)研究了基于深度卷积神经网络的时-频谱特征提取,本文分析了现有声学特征Fbank的两点缺陷:设计过于依赖经验性知识,存在部分语音信息损失。从语谱的物理意义出发,提出了基于Deep CNN的多帧并联的时-频谱特征提取方法。使用CNTK设计了相应的网络结构,通过Kaldi开源语音识别平台在850人实验数据集上进行实验,实验表明基于时-频谱特征的系统较Fbank的系统在音素误识率上有2.16%的相对降低。
[Abstract]:In recent years, with the successful application of Deep Neural Network (DNN) in speech recognition. Researchers have been exploring other networks. Convolutional Neural Network. With its special network structure and strong feature learning ability, CNN has attracted many scholars to conduct in-depth research. At present, in the acoustic modeling and acoustic feature extraction. The potential of CNN still needs to be further explored. This paper starts from the basic principles of speech recognition, taking acoustic model and acoustic features as the breakthrough point. This paper mainly studies the application of deep convolution neural network in speech recognition task. (1) the acoustic modeling based on deep convolution neural network is studied in this paper. The application of Deep CNN DNN and GMM in acoustic modeling is compared and analyzed in detail, and the feasibility of using CNN to describe the probability distribution of HMM state output is expounded. The performance of CNN in different network depth is studied, and the open source speech recognition platform based on CNTK and Kaldi is implemented based on GMM-HMM. DNN-HMM and different depth of CNN-HMM acoustic model recognition system. The CNN-HMM acoustic model of the convolutional layer of 1: 2 is better than that of DNN-HMM on the 850-person experimental data set. The GMM-HMM acoustic model has a relative decrease of 8.29% and 36.89% in phoneme error rate. The CNN-HMM acoustic model of convolutional layer is 8.13% lower than that of CNN-HMM acoustic model of 2 convolution layer in phoneme error rate. Time spectrum feature extraction based on deep convolution neural network is studied. This paper analyzes the two defects of the existing acoustic feature Fbank: the design is too dependent on empirical knowledge and there are some loss of speech information, starting from the physical meaning of the linguistic spectrum. A time-spectrum feature extraction method based on Deep CNN is proposed, and the corresponding network structure is designed using CNTK. Through the Kaldi open source speech recognition platform, the experiment was carried out on the 850-person experimental data set. The experimental results show that the phoneme error rate of the system based on time-spectrum features is 2.16% lower than that of the system based on Fbank.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34;TP183
【相似文献】
中国期刊全文数据库 前10条
1 申建国,王暖臣;语音识别程序的开发与应用[J];计算机应用研究;2000年12期
2 郭远琼;提高语音识别率点滴[J];电脑技术;2000年03期
3 邢文;语音识别[J];个人电脑;2000年02期
4 ;语音识别的真相[J];个人电脑;2001年12期
5 ;语音识别渐入佳境[J];个人电脑;2002年03期
6 ;微软语音识别软件可与人直接对话[J];自动化博览;2003年04期
7 ;语音识别[J];印刷世界;2004年01期
8 杰里米·瓦格斯塔夫;让语音识别软件 解放你的双手[J];农业图书情报学刊;2004年03期
9 韩纪庆,王欢良,李海峰,郑铁然;基于语音识别的发音学习技术[J];电声技术;2004年09期
10 陈孝强;语音识别拟起新潮[J];微电脑世界;2005年07期
中国重要会议论文全文数据库 前10条
1 张歆奕;吴今培;张其善;;语音的共性特征及其在语音识别中的应用[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 杜树木;何良华;;一种新的基于段长分布的语音识别模型[A];2009年通信理论与信号处理学术年会论文集[C];2009年
3 李桢;高万林;欧文浩;徐山川;;基于关键词语音识别的农业信息语音服务系统的研究与实现[A];中国农业工程学会电气信息与自动化专业委员会、中国电机工程学会农村电气化分会科技与教育专委会2010年学术年会论文摘要[C];2010年
4 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年
5 王承发;赵德彬;金山;苗百利;朱志莹;;语音识别应用中抗噪声干扰方法的初步探讨[A];第二届全国人机语音通讯学术会议论文集[C];1992年
6 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议论文集[C];1992年
7 季宏;刘志文;杜燕玲;黄曾阳;;语音识别中的音字转换[A];第三届全国人机语音通讯学术会议论文集[C];1994年
8 葛余博;杨大利;曾德超;;噪声环境下语音识别的几个问题(一)[A];第三届全国人机语音通讯学术会议论文集[C];1994年
9 朱奇峰;俞铁城;;听觉中的协同现象和其对语音识别影响的探讨[A];第四届全国人机语音通讯学术会议论文集[C];1996年
10 姚磊;黄泰翼;陈景东;;一种高鲁棒性语音识别的通用自适应方法研究[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国重要报纸全文数据库 前10条
1 黄梦;方案商积极切入语音识别市场[N];电脑商报;2006年
2 闫婷;语音识别 理想与现实的距离[N];计算机世界;2007年
3 刘喜喜;语音识别将把鼠标键盘打入冷宫?[N];中国计算机报;2008年
4 乐天;语音识别:让你的手机更聪明[N];计算机世界;2011年
5 特约作者 王佳彬;语音识别渐入佳境[N];电脑报;2002年
6 雨夏;语音识别重在应用[N];计算机世界;2001年
7 ;语音识别企业应用前景光明[N];计算机世界;2003年
8 王向东 栾焕博 林守勋 钱跃良;语音识别:抗噪音能力有待加强[N];计算机世界;2006年
9 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
10 张彤;语音识别融入统一通信[N];网络世界;2008年
中国博士学位论文全文数据库 前10条
1 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
2 包希日莫;面向蒙古语的语音识别声学建模研究[D];内蒙古大学;2016年
3 吴斌;语音识别中的后处理技术研究[D];北京邮电大学;2008年
4 奉小慧;音频噪声环境下唇动信息在语音识别中的应用技术研究[D];华南理工大学;2010年
5 孙f,
本文编号:1478538
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1478538.html