基于一维卷积神经网络的车载语音识别技术研究
本文关键词:基于一维卷积神经网络的车载语音识别技术研究 出处:《安徽大学》2017年硕士论文 论文类型:学位论文
更多相关文章: 卷积神经网络 语音识别 车载环境 语音端点检测 加权功率谱
【摘要】:随着经济水平的提高,汽车的使用正在逐渐普及。在汽车数量增长的同时,人们在车辆的驾乘体验方面也提出了安全性、便捷性等多方面的需求。语音是人类之间最高效的交流方式之一,很多车载设备选择语音作为人车交互的主要方式,以满足用户的需求。其中影响到用户体验的最关键的技术就是语音识别技术。语音识别技术经历了数十年的发展,与神经网络的结合使其识别性能得到大幅提升。其中卷积神经网络(Convolution Neural Networks,CNNs)因其出色的局部观察和高层聚合等能力,在语音识别领域得到了广泛应用。但是传统的卷积神经网络都是二维结构,并不能很好地反映出语音信号的一维特性。因此,本文提出使用一维模型进行车载环境下的语音识别。其通过卷积核在时间轴上的移动,在保留频带相关性的同时可以更好地满足语音信号的时变性,进而提高识别性能。此外,本文还对语音识别系统的前端处理算法进行了研究,具体开展了以下工作:(1)在分析了车载噪声特点和卷积混合的声学环境的情况下,研究了适用于车载环境的基于多窗谱估计的谱减法和基于独立分量分析(Independent Component Analysis,ICA)的语音增强算法,并分别通过仿真实验证明其有效性。针对车载噪声中常见端点检测算法性能不佳的问题,本文给出了基于加权功率谱的端点检测算法,算法首先估算出噪声的谱能量分布系数,再结合加权函数,计算出每个子带的谱能量加权系数。通过对不同子带谱能量的加权调整,增加了噪声和语音信号在功率谱中的区分度。仿真实验结果表明,在车载噪声环境中,基于加权功率谱的端点检测算法具有更好的检测效果,不同信噪比环境下,检测正确率较其他常用算法提高了约23%。(2)通过理论分析和实验证明,在车载噪声环境中,Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)比线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)具有更高的鲁棒性和抗干扰能力。同时,对包括动态时间规整(Dynamic Time Warping,DTW)、隐马尔科夫模型(Hidden Markov Model,HMM)和BP(Back Propagation)神经网络在内的常用语音识别算法进行了研究。(3)针对语音信号的一维特性,提出使用一维卷积神经网络进行车载语音识别。相比较于二维模型,一维卷积神经网络中的卷积核为一维向量,相当于语音信号的时间轴上的观察窗,可以提取信号的局部特征,保证其时变性和频带相关性。实验结果表明,一维卷积神经网络在安静环境和车载环境中的识别性能均要高于二维卷积神经网络和其他常用语音识别算法。(4)通过实验分析一维卷积神经网络的结构参数对识别率的影响,并结合在不同强度的车载噪声下,不同卷积核长度对识别性能的具体影响,给出基于前端噪声估计的网络结构自适应选择。最后,基于Matlab平台搭建出基于一维卷积神经网络的语音识别系统,验证算法的有效性。
[Abstract]:With the improvement of economic level, the use of cars is gradually popularizing. As the number of cars increases, people also put forward safety in the aspect of vehicle driving and riding experience. Speech is one of the most efficient means of communication between human beings. Many vehicle-borne devices choose voice as the main way of interaction between people and cars. In order to meet the needs of users, the most critical technology that affects the user experience is speech recognition, which has experienced tens of years of development. The combination with neural networks has greatly improved its recognition performance. Among them, convolutional neural network convolution Neural Networks. CNNs are widely used in speech recognition field because of their excellent local observation and high-level aggregation. But the traditional convolution neural networks are all two-dimensional structures. It can not well reflect the one-dimensional characteristics of speech signal. Therefore, this paper proposes a one-dimensional model for speech recognition in vehicular environment, which moves on the time axis by convolution kernel. At the same time, it can better satisfy the time-varying of speech signal and improve the recognition performance. In addition, the front-end processing algorithm of speech recognition system is studied in this paper. The following work is carried out: 1) in the case of analyzing the characteristics of vehicle noise and the acoustical environment of convolution mixing. The spectral subtraction method based on multi-window spectrum estimation and independent Component Analysis based on independent component analysis (ICA) are studied for vehicle environment. ICA) speech enhancement algorithm, and respectively through simulation experiments to verify its effectiveness, aiming at the common vehicle noise in the performance of endpoint detection algorithm poor performance. In this paper, an endpoint detection algorithm based on weighted power spectrum is presented. Firstly, the spectral energy distribution coefficient of noise is estimated, and then the weighted function is combined. The spectral energy weighting coefficient of each sub-band is calculated. By adjusting the spectral energy of different sub-bands, the discrimination of noise and speech signal in power spectrum is increased. The simulation results show that the noise is in the vehicle noise environment. The endpoint detection algorithm based on weighted power spectrum has better detection effect. In different signal-to-noise ratio environment, the detection accuracy is improved by about 23% compared with other commonly used algorithms. The frequency cepstrum coefficient of Mel Frequency Cepstrum Coefficient is obtained in vehicle noise environment. The coefficient of linear Prediction Cepstrum Coefficient is higher than that of linear prediction cepstrum. LPCC) has higher robustness and anti-jamming capability. At the same time, dynamic Time warping (DTW) including dynamic time warping. Hidden Markov Model. HMMand BP(Back Propagation Neural Network (Ann) and other common speech recognition algorithms are studied. (3) aiming at the one-dimensional characteristics of speech signal. Compared with the two-dimensional model, the convolution kernel of one-dimensional convolution neural network is one-dimensional vector, which is equivalent to the observation window on the time axis of speech signal. The local features of the signal can be extracted, and the time-varying and frequency band correlation can be guaranteed. The experimental results show that. The recognition performance of one-dimensional convolution neural network in quiet environment and vehicle environment is higher than that in two-dimensional convolution neural network and other common speech recognition algorithms. The influence of the structure parameters of one-dimensional convolution neural network on the recognition rate is analyzed experimentally. Considering the influence of different length of convolution kernel on the recognition performance under different vehicle noise intensity, the adaptive selection of network structure based on front-end noise estimation is presented. Finally. A speech recognition system based on one-dimensional convolution neural network is built based on Matlab platform to verify the effectiveness of the algorithm.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.34;TP183
【相似文献】
相关期刊论文 前10条
1 云中客;新的神经网络来自于仿生学[J];物理;2001年10期
2 唐春明,高协平;进化神经网络的研究进展[J];系统工程与电子技术;2001年10期
3 李智;一种基于神经网络的煤炭调运优化方法[J];长沙铁道学院学报;2003年02期
4 程科,王士同,杨静宇;新型模糊形态神经网络及其应用研究[J];计算机工程与应用;2004年21期
5 王凡,孟立凡;关于使用神经网络推定操作者疲劳的研究[J];人类工效学;2004年03期
6 周丽晖;从统计角度看神经网络[J];统计教育;2005年06期
7 赵奇 ,刘开第 ,庞彦军;灰色补偿神经网络及其应用研究[J];微计算机信息;2005年14期
8 袁婷;;神经网络在股票市场预测中的应用[J];软件导刊;2006年05期
9 尚晋;杨有;;从神经网络的过去谈科学发展观[J];重庆三峡学院学报;2006年03期
10 杨钟瑾;;神经网络的过去、现在和将来[J];青年探索;2006年04期
相关会议论文 前10条
1 徐春玉;;基于泛集的神经网络的混沌性[A];1996中国控制与决策学术年会论文集[C];1996年
2 周树德;王岩;孙增圻;孙富春;;量子神经网络[A];2003年中国智能自动化会议论文集(上册)[C];2003年
3 罗山;张琳;范文新;;基于神经网络和简单规划的识别融合算法[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
4 郭爱克;马尽文;丁康;;序言(二)[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
5 钟义信;;知识论:神经网络的新机遇——纪念中国神经网络10周年[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
6 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
7 金龙;朱诗武;赵成志;陈宁;;数值预报产品的神经网络释用预报应用[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 田金亭;;神经网络在中学生创造力评估中的应用[A];第十二届全国心理学学术大会论文摘要集[C];2009年
9 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
10 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
相关重要报纸文章 前10条
1 美国明尼苏达大学社会学博士 密西西比州立大学国家战略规划与分析研究中心资深助理研究员 陈心想;维护好创新的“神经网络硬件”[N];中国教师报;2014年
2 卢业忠;脑控电脑 惊世骇俗[N];计算机世界;2001年
3 葛一鸣 路边文;人工神经网络将大显身手[N];中国纺织报;2003年
4 中国科技大学计算机系 邢方亮;神经网络挑战人类大脑[N];计算机世界;2003年
5 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
6 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年
7 健康时报特约记者 张献怀;干细胞移植:修复受损的神经网络[N];健康时报;2006年
8 刘力;我半导体神经网络技术及应用研究达国际先进水平[N];中国电子报;2001年
9 ;神经网络和模糊逻辑[N];世界金属导报;2002年
10 邹丽梅 陈耀群;江苏科大神经网络应用研究通过鉴定[N];中国船舶报;2006年
相关博士学位论文 前10条
1 杨旭华;神经网络及其在控制中的应用研究[D];浙江大学;2004年
2 李素芳;基于神经网络的无线通信算法研究[D];山东大学;2015年
3 石艳超;忆阻神经网络的混沌性及几类时滞神经网络的同步研究[D];电子科技大学;2014年
4 王新迎;基于随机映射神经网络的多元时间序列预测方法研究[D];大连理工大学;2015年
5 付爱民;极速学习机的训练残差、稳定性及泛化能力研究[D];中国农业大学;2015年
6 李辉;基于粒计算的神经网络及集成方法研究[D];中国矿业大学;2015年
7 王卫苹;复杂网络几类同步控制策略研究及稳定性分析[D];北京邮电大学;2015年
8 张海军;基于云计算的神经网络并行实现及其学习方法研究[D];华南理工大学;2015年
9 李艳晴;风速时间序列预测算法研究[D];北京科技大学;2016年
10 陈辉;多维超精密定位系统建模与控制关键技术研究[D];东南大学;2015年
相关硕士学位论文 前10条
1 章颖;混合不确定性模块化神经网络与高校效益预测的研究[D];华南理工大学;2015年
2 贾文静;基于改进型神经网络的风力发电系统预测及控制研究[D];燕山大学;2015年
3 李慧芳;基于忆阻器的涡卷混沌系统及其电路仿真[D];西南大学;2015年
4 陈彦至;神经网络降维算法研究与应用[D];华南理工大学;2015年
5 董哲康;基于忆阻器的组合电路及神经网络研究[D];西南大学;2015年
6 武创举;基于神经网络的遥感图像分类研究[D];昆明理工大学;2015年
7 李志杰;基于神经网络的上证指数预测研究[D];华南理工大学;2015年
8 陈少吉;基于神经网络血压预测研究与系统实现[D];华南理工大学;2015年
9 张韬;几类时滞神经网络稳定性分析[D];渤海大学;2015年
10 邵雪莹;几类时滞不确定神经网络的稳定性分析[D];渤海大学;2015年
,本文编号:1370650
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/1370650.html