当前位置:主页 > 科技论文 > 信息工程论文 >

基于深度卷积神经网络的中文语音识别

发布时间:2020-06-17 11:54
【摘要】:语言和语音是人类交流沟通最主要、最直接的方式,在日常生活中有着不可替代的作用。随着深度学习的发展和人工智能技术的不断进步,人们对于语音识别的要求也越来越高,由此催生了一系列针对语音识别技术的研究与开发。汉语作为我们的母语,是全球使用人数最多的语言。汉语中不仅有大量的同义字和同音字,还包括声韵母及音调,识别过程复杂,难度较大,因此中文语音识别的效果不够理想。深度学习(Deep Learning,DL)作为近年来最受关注的机器学习模型,在语音识别、图像处理等多个领域取得了惊人的成果。但是,深度神经网络(Deep Neural Network,DNN)作为目前主流的声学模型,由于网络层数过深会破坏语音信号特征,因此在一定程度上影响了语音识别的效果。而卷积神经网络(Convolution Neural Network,CNN)中特有的卷积池化层能够有效地减少训练过程中的参数量,从而可以更好的应对中文的大量数据处理过程,降低模型复杂度,提高中文语音识别的准确率。为此,本文以基于深度卷积神经网络的中文语音识别系统作为研究对象,提出了一种优化的端到端深度卷积神经网络声学模型。本文完成的主要工作包括:(1)针对传统声学模型在训练过程中语音强制对齐现象,结合端到端结构,提出了端到端卷积神经网络(CTC-CNN)声学模型,实现了对输入输出序列的似然度优化,实验结果表明基于CTC-CNN声学模型的中文语音识别系统词错率达到了23.6%。相比于CNN声学模型的中文语音识别系统,正确率提高约1.2%。(2)CTC-CNN模型中,CNN为两层卷积结构,层数较浅,模型识别效果有限。为了进一步提升准确率,采用残差块结构设计了端到端深度卷积神经网络(CTC-DCNN)模型,并通过maxout函数进行优化,改善模型梯度消失现象。实验结果表明,这种新的改进的端到端深度卷积神经网络(改进CTC-DCNN)声学模型,相比于CNN模型,语音识别的词错率可降低4%-4.7%。(3)设计并构建了完整的基于深度卷积神经网络的中文语音识别系统,并将改进CTC-DCNN模型和传统的CNN模型、CTC-CNN模型以及DCNN声学模型等进行了实验及对比分析,验证了本文所提出的改进CTC-DCNN模型具有更好的鲁棒性和识别准确率。此外,还通过不同的迭代次数进一步验证模型的性能,并对一定噪声环境下CTC-DCNN模型的识别效果进行了初步探索。
【学位授予单位】:太原理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP183
【图文】:

语音识别系统


图 2-1 语音识别系统结构Fig.2-1 Structure of speech recognition system2.1 概述识别之初,需将数据库中的中文语音信号数字化并收集语音信息。根据奈奎斯特(Nyquist)采样定理:采样频率s_maxf 和信号最高频率maxF 之间满足:_maxmaxf2 Fs (2-1)正常人类语音频率在 40~4000Hz,因此本文设置采样频率 8KHz,该频率下可以得到较为完整的原始语音信息。之后,对采样的中文语音信号进行预处理。包括预加重、分帧和加窗。最后,提取处理后语音信息的 MFCC 特征,作为声学模型的输入。在中文语音识别系统的构建过程中,选择常用的清华大学语料库 Thchs-30 进行训

语谱图,语谱图,文件,语音信号


图 2-2 文件语谱图Fig. 2-2 Spectrogram of the file 语音信号预处理高精度的语音信号可以更好的实现语音的表征,鲁棒性更佳。因此,需要将始信号进行处理得到精度更高的语音特征,即语音信号预处理。1 语音信号预加重语音信号从人口腔声门发出后存在衰减[17]。因此,需要在 FFT 之前进行预加峭的频谱变得平坦。中文语音识别系统中,采用一阶高通滤波器实现预加重如图 2-3 所示。

【相似文献】

相关期刊论文 前10条

1 桑亚超;李龙杰;袁传青;霍庆磊;张乐;;关于语音识别在空调上的应用与改善[J];日用电器;2019年07期

2 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

3 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

4 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

5 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

6 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

7 张连仲;;带着使命感出发[J];英语学习;2017年01期

8 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期

9 刘宝华;;语音识别老祖宗[J];经营者(汽车商业评论);2017年03期

10 司马宁;;智能电视,语音识别或成突破口[J];消费指南;2017年05期

相关会议论文 前10条

1 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

2 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[A];中国声学学会第十届青年学术会议论文集[C];2013年

4 文成义;何海燕;张玉扶;;基于新型神经网络的不定人语音识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

5 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年

7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

9 张明新;倪宏;陈国平;张东滨;;一种用于并行模型噪声鲁棒语音识别的特征构造方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 通讯员 魏霈侃;从学霸、学者到创业者的华丽转身[N];中国教育报;2016年

2 特约撰稿人 Lamont Wood 编译 Charles;语音识别成长起来,并走向移动应用[N];计算机世界;2018年

3 本报记者 陶力;阿里全资收购先声互联 推动语音识别场景落地[N];21世纪经济报道;2018年

4 洪蕾;阿里研发高工业噪声环境下语音识别及传输技术[N];中国信息化周报;2018年

5 本报记者 郭科;登月早已实现,同期启动的语音识别还在路上[N];科技日报;2018年

6 本报记者 王星平;语音识别商用尴尬 应用场景垂直化路有多远[N];中国企业报;2016年

7 本报记者 余建华;从“绿皮车时代”迈入“高铁时代”[N];人民法院报;2017年

8 陈宗周;机器在聆听[N];电脑报;2017年

9 本报记者 黄旭 熊雯琳;云知声:与巨头共舞,成为AI领域BAT的密码[N];电脑报;2017年

10 本报记者 钱一彬;手机“黑科技”为何叫好不叫座[N];人民日报;2017年

相关博士学位论文 前10条

1 屠彦辉;复杂场景下基于深度学习的鲁棒性语音识别的研究[D];中国科学技术大学;2019年

2 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

3 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

4 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

5 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

6 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

7 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

8 孙f

本文编号:2717568


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2717568.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2cb86***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com