基于深度学习的危险声音检测技术研究
发布时间:2021-10-21 20:06
如今在人们的生活中充斥着各种声音,其中一些声音是危险事件的反映,例如爆炸声、枪声、尖叫声等,对人们有危险警示作用,因此危险声音检测有着潜在的应用价值。近年来危险声音检测得到越来越多专家学者的研究,已经逐渐成为音频信号处理中的一项重要内容。目前对其研究大多停留在使用人工选择特征和传统的机器学习方法,例如MFCC特征、支持向量机,高斯混合模型等,这些方法面临着难以选择良好特征和解决复杂分类的问题。尽管当前也有部分研究尝试使用深度学习方法,但是它们设计的网络模型大多结构单一、层次简单,可迁移性较差。本文对基于深度学习的危险声音检测方法进行了研究,设计了多种网络模型,对比使用传统方式的基线系统,逐步提高了危险声音检测准确率。本文主要工作内容和创新如下:(1)阐述了深度学习的基础理论知识,设计了基于特征表示和分类的危险声音检测框架,依据框架搭建了基于传统MFCC特征和GMM模型的声音检测基线系统。对该系统在本文统一的危险声音数据集上进行开发和测试,获取训练与测试两组检测准确率分别为77%和68%。可以看出该方式能初步胜任危险声音检测任务,将其作为后文检测系统的对照组。(2)设计搭建了基于深度学习...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
神经元结构图
电子科技大学硕士学位论文8图2-1中每一条带箭头的线被称为“连接”,用来表示神经元之间传递信号。123x,x,x,b表示该神经元的输入,其中b是偏置输入,而123x,x,x则来自其他神经元的输出。123w,w,w是对应输入信号的“权值”,表示神经元对信号的接受程度,它控制了其他神经元对该神经元兴奋程度的影响(抑制或者加强)。f是激活函数,表示神经元的计算功能,神经元将所有其他神经元的输出信号通过加权接收之后,激活函数计算并判定该神经元是否激活。激活的神经元将信号值通过y输出,成为其他神经元的输入信号。感知器(Perception)是由计算科学家Rosenblatt在1958年提出的具有“输入层”和“输出层”两层节点的神经网络。因为输入层不进行计算,只有输出层一个运算层,所以感知器也被称为单层神经网络。不同于MP模型,感知器模型“内连接”的权值是通过训练得到的,可以将感知器看作一个逻辑回归模型,可以进行线性分类任务。将MP模型的输入改为输入节点即可得到感知器模型,一个典型的感知器模型如图2-2所示,该模型包含三个输入节点两个输出节点。图2-2感知器结构图图2-2中123a,a,a表示输入层的输出值,x,yw()表示自上而下第x个输入节点与第y个输出节点连接的权重,()12,Tzz表示要预测的目标,则目标的计算公式见式(2-1)。()()()11,1)1(2,1)2(3,1)3122(1,2)1(2,2)2(3,2)3,Tzfwawawabzzzfwawawab=+++==+++((2-1)
第二章深度学习的理论基础9观察计算公式,发现两个公式组成了线性代数方程组,因而可以用矩阵乘法来表示,于是公式(2-1)转换为公式(2-2),式中()123,,Ta=aaa表示输入的列向量;W是一个形式为23的系数矩阵,其值与排列形式和公式(2-1)中系数的值与排列形式一致;b是一个13的列向量,表示偏置系数;公式左侧的()12,Tz=zz表示目标的列向量。z=f(Wa+b)(2-2)2.1.2神经网络模型为了克服感知器只能完成简单线性分类任务这一问题,人们发现两层感知器可以很好地完成非线性分类任务。两层感知器的结构如图2-3所示,包含一个输入层、一个输出层、一个中间层(隐藏层),此时隐藏层与输出层都是计算层,因此也称其为双层神经网络。图2-3多层感知器(两层神经网络)结构图现在节点间连接的权值增加了一层,我们用上标来表示层数,下标表示节点在本层与下一层的层内顺序。即()()nma表示第n层第m个节点的输入变量,()(,)nxyw表示第n层的第x个节点与第n+1层的第y个节点之间连接的权重值,(1)b与(2)b分别表示第1层和第2层的偏置节点,且偏置节点与本层所有节点都相连。此时模型中间层节点和输出节点的计算分别见式(2-3)和式(2-4)。()()(2)(1)(1)(1)(1)(1)(1)(1)1(1,1)1(2,1)2(3,1)3(2)(1)(1)(1)(1)(1)(1)(1)2(1,2)1(2,2)2(3,2)3afwawawabafwawawab=+++=+++(2-3)()(2)(2)2(2)(2)1,112,12z=fwa+wa+b()()(2-4)
【参考文献】:
期刊论文
[1]Deep Scalogram Representations for Acoustic Scene Classification[J]. Zhao Ren,Kun Qian,Zixing Zhang,Vedhas Pandit,Alice Baird,Bjrn Schuller. IEEE/CAA Journal of Automatica Sinica. 2018(03)
[2]无人机识别的音频特征提取方法[J]. 丘恺彬,李建良. 噪声与振动控制. 2018(02)
[3]人工智能全球新浪潮[J]. 王冲鶄. 中国信息化. 2017(08)
[4]基于卷积神经网络探讨深度学习算法与应用[J]. 高强,靳其兵,程勇. 电脑知识与技术. 2015(13)
[5]窗函数在信号处理中的应用[J]. 崔璨,袁英才. 北京印刷学院学报. 2014(04)
[6]一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J]. 李晋徽,杨俊安,王一. 计算机科学. 2014(03)
[7]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[8]深度学习结构和算法比较分析[J]. 李海峰,李纯果. 河北大学学报(自然科学版). 2012(05)
[9]一种高斯白噪声信号发生器的设计与实现[J]. 付俊,李光灿. 计算机测量与控制. 2012(05)
[10]公共场所典型异常声音的特征提取[J]. 栾少文,龚卫国. 计算机工程. 2010(07)
博士论文
[1]复杂音频的事件检测与分类中的关键问题研究[D]. 冷严.北京邮电大学 2012
[2]复杂音频分类中的关键问题研究[D]. 王荣燕.北京邮电大学 2011
硕士论文
[1]基于深度学习的音频场景识别研究[D]. 张溯.东北石油大学 2018
[2]基于深度学习的音频场景识别方法研究[D]. 李琪.西安电子科技大学 2018
[3]基于深度神经网络的异常声音事件检测[D]. 王开武.重庆大学 2018
[4]公共场所异常声音识别算法设计与研究[D]. 张丽君.重庆大学 2017
[5]基于深度神经网络的音频事件检测[D]. 金海.华南理工大学 2016
[6]监督式分级异常声音检测系统的设计与实现[D]. 叶剑杰.华南理工大学 2015
[7]3D虚拟声算法研究与实现[D]. 李薯光.西安电子科技大学 2014
[8]视频监控终端系统声音检测及告警功能软件设计[D]. 张璐璐.浙江大学 2013
[9]基于声谱图的公共场所异常声音特征提取及识别研究[D]. 刘鹏.重庆大学 2012
本文编号:3449641
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:81 页
【学位级别】:硕士
【部分图文】:
神经元结构图
电子科技大学硕士学位论文8图2-1中每一条带箭头的线被称为“连接”,用来表示神经元之间传递信号。123x,x,x,b表示该神经元的输入,其中b是偏置输入,而123x,x,x则来自其他神经元的输出。123w,w,w是对应输入信号的“权值”,表示神经元对信号的接受程度,它控制了其他神经元对该神经元兴奋程度的影响(抑制或者加强)。f是激活函数,表示神经元的计算功能,神经元将所有其他神经元的输出信号通过加权接收之后,激活函数计算并判定该神经元是否激活。激活的神经元将信号值通过y输出,成为其他神经元的输入信号。感知器(Perception)是由计算科学家Rosenblatt在1958年提出的具有“输入层”和“输出层”两层节点的神经网络。因为输入层不进行计算,只有输出层一个运算层,所以感知器也被称为单层神经网络。不同于MP模型,感知器模型“内连接”的权值是通过训练得到的,可以将感知器看作一个逻辑回归模型,可以进行线性分类任务。将MP模型的输入改为输入节点即可得到感知器模型,一个典型的感知器模型如图2-2所示,该模型包含三个输入节点两个输出节点。图2-2感知器结构图图2-2中123a,a,a表示输入层的输出值,x,yw()表示自上而下第x个输入节点与第y个输出节点连接的权重,()12,Tzz表示要预测的目标,则目标的计算公式见式(2-1)。()()()11,1)1(2,1)2(3,1)3122(1,2)1(2,2)2(3,2)3,Tzfwawawabzzzfwawawab=+++==+++((2-1)
第二章深度学习的理论基础9观察计算公式,发现两个公式组成了线性代数方程组,因而可以用矩阵乘法来表示,于是公式(2-1)转换为公式(2-2),式中()123,,Ta=aaa表示输入的列向量;W是一个形式为23的系数矩阵,其值与排列形式和公式(2-1)中系数的值与排列形式一致;b是一个13的列向量,表示偏置系数;公式左侧的()12,Tz=zz表示目标的列向量。z=f(Wa+b)(2-2)2.1.2神经网络模型为了克服感知器只能完成简单线性分类任务这一问题,人们发现两层感知器可以很好地完成非线性分类任务。两层感知器的结构如图2-3所示,包含一个输入层、一个输出层、一个中间层(隐藏层),此时隐藏层与输出层都是计算层,因此也称其为双层神经网络。图2-3多层感知器(两层神经网络)结构图现在节点间连接的权值增加了一层,我们用上标来表示层数,下标表示节点在本层与下一层的层内顺序。即()()nma表示第n层第m个节点的输入变量,()(,)nxyw表示第n层的第x个节点与第n+1层的第y个节点之间连接的权重值,(1)b与(2)b分别表示第1层和第2层的偏置节点,且偏置节点与本层所有节点都相连。此时模型中间层节点和输出节点的计算分别见式(2-3)和式(2-4)。()()(2)(1)(1)(1)(1)(1)(1)(1)1(1,1)1(2,1)2(3,1)3(2)(1)(1)(1)(1)(1)(1)(1)2(1,2)1(2,2)2(3,2)3afwawawabafwawawab=+++=+++(2-3)()(2)(2)2(2)(2)1,112,12z=fwa+wa+b()()(2-4)
【参考文献】:
期刊论文
[1]Deep Scalogram Representations for Acoustic Scene Classification[J]. Zhao Ren,Kun Qian,Zixing Zhang,Vedhas Pandit,Alice Baird,Bjrn Schuller. IEEE/CAA Journal of Automatica Sinica. 2018(03)
[2]无人机识别的音频特征提取方法[J]. 丘恺彬,李建良. 噪声与振动控制. 2018(02)
[3]人工智能全球新浪潮[J]. 王冲鶄. 中国信息化. 2017(08)
[4]基于卷积神经网络探讨深度学习算法与应用[J]. 高强,靳其兵,程勇. 电脑知识与技术. 2015(13)
[5]窗函数在信号处理中的应用[J]. 崔璨,袁英才. 北京印刷学院学报. 2014(04)
[6]一种新的基于瓶颈深度信念网络的特征提取方法及其在语种识别中的应用[J]. 李晋徽,杨俊安,王一. 计算机科学. 2014(03)
[7]深度学习的昨天、今天和明天[J]. 余凯,贾磊,陈雨强,徐伟. 计算机研究与发展. 2013(09)
[8]深度学习结构和算法比较分析[J]. 李海峰,李纯果. 河北大学学报(自然科学版). 2012(05)
[9]一种高斯白噪声信号发生器的设计与实现[J]. 付俊,李光灿. 计算机测量与控制. 2012(05)
[10]公共场所典型异常声音的特征提取[J]. 栾少文,龚卫国. 计算机工程. 2010(07)
博士论文
[1]复杂音频的事件检测与分类中的关键问题研究[D]. 冷严.北京邮电大学 2012
[2]复杂音频分类中的关键问题研究[D]. 王荣燕.北京邮电大学 2011
硕士论文
[1]基于深度学习的音频场景识别研究[D]. 张溯.东北石油大学 2018
[2]基于深度学习的音频场景识别方法研究[D]. 李琪.西安电子科技大学 2018
[3]基于深度神经网络的异常声音事件检测[D]. 王开武.重庆大学 2018
[4]公共场所异常声音识别算法设计与研究[D]. 张丽君.重庆大学 2017
[5]基于深度神经网络的音频事件检测[D]. 金海.华南理工大学 2016
[6]监督式分级异常声音检测系统的设计与实现[D]. 叶剑杰.华南理工大学 2015
[7]3D虚拟声算法研究与实现[D]. 李薯光.西安电子科技大学 2014
[8]视频监控终端系统声音检测及告警功能软件设计[D]. 张璐璐.浙江大学 2013
[9]基于声谱图的公共场所异常声音特征提取及识别研究[D]. 刘鹏.重庆大学 2012
本文编号:3449641
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3449641.html