卷积神经网络在大词汇量连续语音识别中的运用研究

发布时间：2020-06-17 13:48

【摘要】：语音识别技术经过多年发展已取得了长足的进步,在孤立词识别方面已经取得了很大的成功,在识别率上已经达到了接近完全正确的高度,但是在大词汇量连续语音识别(LVCSR)方面仍有较大提高的空间。近年来,深度学习在大词汇量连续语音识别领域的运用受到广泛的重视。本文研究了卷积神经网络(CNN)在大词汇量连续语音识别中的运用,选题具有重要的理论与实际意义。论文首先描述了语音识别技术的研究背景和现状,论述了语音识别与人工神经网络的相关知识,包括语音识别的基本原理、语音识别系统的构成、以及人工神经网络的BP算法和卷积神经网络的训练算法。其次,描述了大词汇量连续语音识别中存在的难点,分析了卷积神经网络在LVCSR中的优势,搭建了本文大词汇量连续语音识别系统;并重点阐述了LVCSR中的CNN网络结构,分析了网络各层的特点,说明了各层参数的设计方法。最后,选用中文语音库TIMIT和英文语音库thchs30,对卷积神经网络在LVCSR中的运用进行了实验测试。对FBANK语音特征和广泛使用的MFCC语音特征进行了比较,FBANK语音特征在CNN模型中有着更低的词错误率。通过对卷积层卷积核大小和池化层池化面积大小的调优,实现对卷积神经网络结构的优化,获得了词错误率相对较低的网络模型。英文数据库TIMIT优化后的词错误率为19.1%,相比于GMM-HMM方法的单音素模型的词错误率32.7%和三音素模型的词错误率25.6%,CNN模型提高了识别正确率;中文语音库thchs30优化后的词错误率为27.34%,相比于GMM-HMM方法的单音素模型的50.88%和三音素模型的35.97%,CNN模型也提高了识别正确率。实验中还通过在线识别的方法,展示了优化后的CNN在LVCSR中的识别结果和性能提升。研究表明,卷积神经网络在LVCSR中能够减少语音识别的词错误率,但仍然有很多的研究工作要做,如结合大数据的学习更好提升语音识别的性能等。
【学位授予单位】：华中科技大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TN912.34;TP183
【图文】：

过程图,音素,状态序列,序列

图 2-6 语音帧序列转化成音素状态序列过程在图 2-6 中，O表示长度为 m 的观测序列{O1,O2,...,Oi,...,Om}，O1,O2,O3,O4音素状态是 sil，O5,O6,O7音素状态是 y，而下方的马尔可夫链就表示状态转移过程[20]，sil 音素状态变成 y 音素状态就是 0.4，不变的概率是 0.6，y 音素状态变成 eh 音素状态就是 0.7，不变的概率是 0.3，以此类推。最终从观测序列得到的整个语音状态序列概率为bsil(O1)*0.6 *bsil(O2)*0.6 *bsil(O3)*0.6 *bsil(O4)*0.4 *by(O5)*0.3*by(O6)...。在 GMM-HMM 声学模型中，GMM 的训练模型基于的是 EM 算法，HMM 的训练模型基于的是前向后向算法（Baum Welch 算法），GMM-HMM 的出现使语音识别技术的准确率大大提升，让人们在大数据集下训练连续语音有了突破性的进展，从而促使很多实用性的语音识别产品产生。2.2.4 语言模型和字典声学模型处理过后的语音数据会得到每一帧信号的音素状态，从音素序列再变

语音数据,词序,单词,字符

中科技大学硕士学位论 P ( s )来表示词序列出现的概率。计算公式如下式1 2 1 2 1 3 1 2 1 ) ( ... ) ( ) ( | ) ( | )... ( | ..T T s P w w w P w P w w P w w w P w w 2-11）中，词序列s 由 T 个词组成， s = w1w2...wT，利分布函数转化成条件概率。典（lexicon）存储着音素（phoneme）和单词（words们可以将声学模型与语言模型联系起来，从而为解码器参照表。7 中，中文语音数据的字典记录的是中文汉字字符与相

【参考文献】