当前位置:主页 > 科技论文 > 网络通信论文 >

基于深度学习的语音识别方法研究

发布时间:2020-03-29 01:17
【摘要】:为了解决复杂环境背景下,采用传统声学模型对语音识别的识别率低的问题,本文结合深度学习理论,分别从语音特征参数和声学模型两个方面进行语音特征提取和识别算法研究。论文研究了人类语音特征,分析人类语音特征参数及其提取原理,研究了LPCC和MFCC两类语音特征参数提取基本算法。通过对MFCC提取算法分析,得出该算法存在明显的高音特征畸变问题。因此,本文采用了EMD分解和分形理论的改进算法修正语音的高频区信息,以达到通过对语音高音区特征量的非线性处理的实现改善高频区信号畸变的目的。本文还研究了MFCC提取算法结合EMD-FD提取算法,相较于单一MFCC提取算法能够更加完整地提取语音信号高频区特征,进而提高了语音识别率。本文还从声学模型建模的角度对深度学习理论以及语音识别中ANN-HMM模型进行了研究。首先,论文分别研究了传统的HMM模型和GMM-HMM模型理论基础,通过仿真对比了HMM模型和GMM模型对语音训练量的性能,论文测试验证了GMM-HMM模型识别效果优于单一的HMM模型,几乎不受语音训练量的影响,提高了声学模型的识别率。然后,论文研究了深度学习理论应用于语音信号处理的可行性和一般方法。然后,论文研究了DNN和LSTM神经网络模型及其训练方法,着重分析了DNN神经网络模型的结构原理、基于受限玻尔兹曼机训练算法和Dropout策略参数调优问题。紧接着,论文研究了LSTM神经网络模型的结构原理、BPTT训练算法及其改进的CSC-BPTT训练算法和解码问题。仿真结果表明:在LSTM神经网络模型中,CSC-BPTT训练算法训练效果和训练速度都要远优于传统的BPTT训练算法。最后,本文通过仿真对比了GMM-HMM模型、DNN-HMM模型和LSTM-HMM模型对长短语音序列的性能和智能化识别的可行性。仿真结果表明:基于深度学习理论的ANN-HMM模型作为声学模型能够取得了优于传统的GMM-HMM模型的识别效果和识别效率。
【图文】:

语音识别系统,原理框图,语音识别


图 2-1 语音识别系统原理框图Fig. 2-1 Principle block diagram of speech recognition system 可知,语音识别需要经过两个阶段,一个是对语音音的识别阶段。其中,对于训练阶段,其基本任务利用提取算法提取出的特征参数作为声学模型输入进行归纳分类,借助高效的训练算法使得语音特征阶段主要是将预先设定的测试集提取的语音特征参练后的结果进行特征匹配,,得到一个相似度考量,识别决策[15]。因此,对于语音识别整个流程,语音建是语音识别中首要解决的问题。号的预处理的预处理分为三个基本操作:预加重、分帧加窗以

语音特征参数,提取流程


图 2-8 MFCC 语音特征参数提取流程图Fig. 2-8 Flow chart of MFCC speech feature parameter extraction由图 2-8 可知,MFCC 语音特征参数提取过程如下:1. 首先语音信号进行预处理,对于分帧加窗,选择使用汉明窗;对于端点测,使用本文的谱熵法[25]。然后再通过 FFT 变换,最后获得语音信号的频谱。2. 通过上述获得的语音频谱,计算得到语音的能量谱。为了模拟人耳听觉制,利用叠加参数的方式处理语音信号,即使用M 个 Mel 滤波器组进行滤波理后,每个频带中的能量进行加权叠加。记第k 个滤波器输出功率谱为 S (k)。0.30.40.50.60.70.80.91归一化幅值Mel滤 波 器 组 的 频 率 响 应 曲 线
【学位授予单位】:哈尔滨理工大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TN912.34;TP183

【相似文献】

相关期刊论文 前10条

1 周弘烨;;语音识别大揭秘:计算机如何处理声音?[J];中国新通信;2019年04期

2 程建军;胡立志;;关于深度学习的语音识别应用研究[J];科技经济导刊;2019年12期

3 姜姝姝;;语音识别64年大突破[J];机器人产业;2016年06期

4 吴俊宇;;语音识别为何“叫好不叫座”?[J];通信世界;2016年16期

5 徐鑫;;语音识别的未来之路[J];通信世界;2016年16期

6 张连仲;;带着使命感出发[J];英语学习;2017年01期

7 张凯;;荣威eRX5静态体验 “人性化”语音识别是亮点[J];新能源汽车新闻;2017年01期

8 刘宝华;;语音识别老祖宗[J];经营者(汽车商业评论);2017年03期

9 司马宁;;智能电视,语音识别或成突破口[J];消费指南;2017年05期

10 ;宝马 用科技打造“未来之家”[J];中国汽车市场;2016年11期

相关会议论文 前10条

1 张冰;龙长才;罗海风;;熟悉掩蔽音背景下的目标语音识别[A];泛在信息社会中的声学——中国声学学会2010年全国会员代表大会暨学术会议论文集[C];2010年

2 于东;贾磊;徐波;;面向语音识别错误恢复的澄清式疑问句生成[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 邢安昊;黎塔;颜永红;;利用二重打分方法的激活词语音识别[A];中国声学学会第十届青年学术会议论文集[C];2013年

4 文成义;何海燕;张玉扶;;基于新型神经网络的不定人语音识别[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

5 杜笑平;杨启纲;杨家沅;;过零周期转移概率矩阵语音识别部件的研制[A];第二届全国人机语音通讯学术会议(NCMMSC1992)论文集[C];1992年

6 潘胜昔;刘加;江金涛;王作英;陆大金;;基于多模式及集成判决的稳健电话语音识别算法研究[A];第五届全国人机语音通讯学术会议(NCMMSC1998)论文集[C];1998年

7 杜利民;;语音识别中的鲁棒性问题[A];第六届全国人机语音通讯学术会议论文集[C];2001年

8 宋君;葛余博;;应用于鲁棒语音识别的置信度加权特征丢失法[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

9 张明新;倪宏;陈国平;张东滨;;一种用于并行模型噪声鲁棒语音识别的特征构造方法[A];第八届全国人机语音通讯学术会议论文集[C];2005年

10 熊军军;马瑞堂;李成荣;;儿童语音识别的研究现状[A];第九届全国人机语音通讯学术会议论文集[C];2007年

相关重要报纸文章 前10条

1 通讯员 魏霈侃;从学霸、学者到创业者的华丽转身[N];中国教育报;2016年

2 特约撰稿人 Lamont Wood 编译 Charles;语音识别成长起来,并走向移动应用[N];计算机世界;2018年

3 本报记者 陶力;阿里全资收购先声互联 推动语音识别场景落地[N];21世纪经济报道;2018年

4 洪蕾;阿里研发高工业噪声环境下语音识别及传输技术[N];中国信息化周报;2018年

5 本报记者 郭科;登月早已实现,同期启动的语音识别还在路上[N];科技日报;2018年

6 本报记者 王星平;语音识别商用尴尬 应用场景垂直化路有多远[N];中国企业报;2016年

7 本报记者 余建华;从“绿皮车时代”迈入“高铁时代”[N];人民法院报;2017年

8 陈宗周;机器在聆听[N];电脑报;2017年

9 本报记者 黄旭 熊雯琳;云知声:与巨头共舞,成为AI领域BAT的密码[N];电脑报;2017年

10 本报记者 钱一彬;手机“黑科技”为何叫好不叫座[N];人民日报;2017年

相关博士学位论文 前10条

1 屠彦辉;复杂场景下基于深度学习的鲁棒性语音识别的研究[D];中国科学技术大学;2019年

2 贺苏宁;基于语音识别基元声学整体结构特征的识别模型研究[D];电子科技大学;2005年

3 陈立伟;基于HMM和ANN的汉语语音识别[D];哈尔滨工程大学;2005年

4 徐金甫;基于特征提取的抗噪声语音识别研究[D];华南理工大学;2000年

5 宁更新;抗噪声语音识别新技术的研究[D];华南理工大学;2006年

6 沈海峰;语音识别中的环境补偿研究[D];北京邮电大学;2006年

7 李小兵;高效简约的语音识别声学模型[D];中国科学技术大学;2006年

8 孙f

本文编号:2605205


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2605205.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户49169***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com