基于深度卷积神经网络的中文语音识别

发布时间：2020-06-17 11:54

【摘要】：语言和语音是人类交流沟通最主要、最直接的方式,在日常生活中有着不可替代的作用。随着深度学习的发展和人工智能技术的不断进步,人们对于语音识别的要求也越来越高,由此催生了一系列针对语音识别技术的研究与开发。汉语作为我们的母语,是全球使用人数最多的语言。汉语中不仅有大量的同义字和同音字,还包括声韵母及音调,识别过程复杂,难度较大,因此中文语音识别的效果不够理想。深度学习(Deep Learning,DL)作为近年来最受关注的机器学习模型,在语音识别、图像处理等多个领域取得了惊人的成果。但是,深度神经网络(Deep Neural Network,DNN)作为目前主流的声学模型,由于网络层数过深会破坏语音信号特征,因此在一定程度上影响了语音识别的效果。而卷积神经网络(Convolution Neural Network,CNN)中特有的卷积池化层能够有效地减少训练过程中的参数量,从而可以更好的应对中文的大量数据处理过程,降低模型复杂度,提高中文语音识别的准确率。为此,本文以基于深度卷积神经网络的中文语音识别系统作为研究对象,提出了一种优化的端到端深度卷积神经网络声学模型。本文完成的主要工作包括:(1)针对传统声学模型在训练过程中语音强制对齐现象,结合端到端结构,提出了端到端卷积神经网络(CTC-CNN)声学模型,实现了对输入输出序列的似然度优化,实验结果表明基于CTC-CNN声学模型的中文语音识别系统词错率达到了23.6%。相比于CNN声学模型的中文语音识别系统,正确率提高约1.2%。(2)CTC-CNN模型中,CNN为两层卷积结构,层数较浅,模型识别效果有限。为了进一步提升准确率,采用残差块结构设计了端到端深度卷积神经网络(CTC-DCNN)模型,并通过maxout函数进行优化,改善模型梯度消失现象。实验结果表明,这种新的改进的端到端深度卷积神经网络(改进CTC-DCNN)声学模型,相比于CNN模型,语音识别的词错率可降低4%-4.7%。(3)设计并构建了完整的基于深度卷积神经网络的中文语音识别系统,并将改进CTC-DCNN模型和传统的CNN模型、CTC-CNN模型以及DCNN声学模型等进行了实验及对比分析,验证了本文所提出的改进CTC-DCNN模型具有更好的鲁棒性和识别准确率。此外,还通过不同的迭代次数进一步验证模型的性能,并对一定噪声环境下CTC-DCNN模型的识别效果进行了初步探索。
【学位授予单位】：太原理工大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TN912.34;TP183
【图文】：

语音识别系统

图 2-1 语音识别系统结构Fig.2-1 Structure of speech recognition system2.1 概述识别之初，需将数据库中的中文语音信号数字化并收集语音信息。根据奈奎斯特（Nyquist）采样定理：采样频率s_maxf 和信号最高频率maxF 之间满足：_maxmaxf2 Fs （2-1）正常人类语音频率在 40~4000Hz，因此本文设置采样频率 8KHz，该频率下可以得到较为完整的原始语音信息。之后，对采样的中文语音信号进行预处理。包括预加重、分帧和加窗。最后，提取处理后语音信息的 MFCC 特征，作为声学模型的输入。在中文语音识别系统的构建过程中，选择常用的清华大学语料库 Thchs-30 进行训

语谱图,语谱图,文件,语音信号

图 2-2 文件语谱图Fig. 2-2 Spectrogram of the file 语音信号预处理高精度的语音信号可以更好的实现语音的表征，鲁棒性更佳。因此，需要将始信号进行处理得到精度更高的语音特征，即语音信号预处理。1 语音信号预加重语音信号从人口腔声门发出后存在衰减[17]。因此，需要在 FFT 之前进行预加峭的频谱变得平坦。中文语音识别系统中，采用一阶高通滤波器实现预加重如图 2-3 所示。

【相似文献】