基于深度学习的音频场景识别研究

发布时间：2020-05-17 04:18

【摘要】：随着互联网及新媒体平台的迅猛发展,音频数据总量变得越来越庞大。在大数据及人工智能的背景下,音频场景识别技术可应用的领域越来越广泛,其重要性不言而喻。音频场景识别本质上是对声音信号中包含的声音特征及声学事件进行感知,并加以处理和分析,从而对音频信号进行分类。声学特征的选择直接影响分类结果的好坏,因此选择合适的声学特征尤其关键。梅尔频率倒谱系数(MEL Frequency Cepstrum Coefficient,MFCC)能够模拟人耳对声音处理的特质,计算方面较其他声学特征更容易,能够抓取信号中具有辨识度的部分。因此,在有关音频识别的分类任务中,MFCC的抗干扰能力优于其他声学特征。近年来对于人工智能的研究渐渐成熟,深度学习技术飞速发展,在模式识别、机器学习等领域取得了革命性的突破,使得越来越多的人投身有关深度学习的研究。深度神经网络是深度学习当中的一个重要研究方向,相较于浅层神经网络,其拥有更复杂的网络结构,更强大的运算组合能力,更细致的特征分析能力。卷积神经网络(Convolutional Neural Network,CNN)采用深度学习构架,是深度神经网络中的一种经典网络模型,具有权值共享、局部连接等特性。这使得卷积神经网络在训练过程中所需要学习的参数更少、网络节点更少,降低了网络复杂度,减少计算开销。卷积神经网络具有出色的特征提取能力,由于特有的网络结构,其抗畸变能力更强,具有输入不变性,在分类任务中表现尤其出色。本课题选用MFCC作为场景音频所提取的声学特征,利用CNN在特征提取及分类方面的优越性能对声学特征进一步抽取和分析,得到更加高级、抽象的特征,并对其进行分类,达到提升分类准确率的目的。本文主要工作如下:(1)对音频场景识别技术、深度学习、声学特征等方面展开深入调研,整理并总结各领域国内外发展现状,对深度学习及音频场景识别技术的发展历程、声学特征的分类及其特点进行了详细介绍。(2)阐述了MFCC的原理并给出提取流程,介绍了K近邻算法(K-Neighbor Nearest,KNN)的理论基础及分类流程,设计并搭建了使用KNN作为分类器的基线实验系统,调整重要参数进行多组对照实验,得到并分析实验结果。(3)介绍了CNN的网络结构、计算方式、学习算法及应用范围等。设计并搭建了基于MFCC和CNN的音频场景识别系统,给出了实验整体流程及系统中卷积神经网络的网络构架。首先,对场景音频进行声学特征的提取,将声学特征数据集分为训练样本集及测试样本集两类。接下来利用训练样本集对卷积神经网络进行训练,使网络训练至收敛,使权值等参数的学习达到最优状态。最后,使用完成训练的卷积神经网络对测试样本集进行音频场景的识别,得到场景识别准确率。同时,对CNN中的重要参数:卷积核大小、特征图数量、激活函数等进行调整,对比在参数调整后分类准确率的变化大小及趋势。通过对两组实验结果的观察可以得到,基于MFCC和CNN的场景识别系统的整体识别率比基线系统高出1.4个百分点,通过调整卷积核尺寸、特征图数量等参数后,整体识别率又有小幅度上升。因此,基于MFCC和CNN的实验系统在整体识别率方面优于基线系统。
【图文】：

过程图,卷积运算,过程,卷积核

东北石油大学工程硕士专业学位论文的步长。在一个卷积层中，卷积核的数量与特征图数量是呈正比的，响着特征抽取的全面性和准确性。卷积核的尺寸决定着特征图的大小，则在待处理图像上可移动的距离就越近，相对应的特征图就越小。多，，需要多层卷积层来进行操作，那么在前期设计卷积核大小时，需问题，不宜过大，否则将会影响到特征的提取。步长这一参数决定了次数和特征数量。卷积运算过程如图 3.1 所示。

过程图,过程,权值

图 3.2 池化过程经网络的特点经网络模型相比，卷积神经网络具有以下特性：神经网络具有权值共享的特点，即在同一个神经网络中，相的任何位置进行卷积操作，均使用相同的网络权值和加性偏同样的权值按照特定规则去卷积输入矩阵，那么在图像数据度相关的，因此可以形成更加具有辨识度的局部特征。同时值参数更少，使计算量得到削减。少的权值意味着卷积神经少的训练数据集进行训练，就可以达到相同的效果，适用连接是卷积神经网络的另一个特性。与其他深度网络模型一神经元需要和隐含层的神经元连接，但并不是将所有输入神行全连接，而是仅在图像的某个局部区域进行部分连接，这感知域。局部连接的方式在图像处理操作上具有独特的局部区域特征值相对于其他相邻区域具有相似性和关联性，因
【学位授予单位】：东北石油大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：TP18;TN912.34

【参考文献】