面向多信道不均衡数据的声学场景分类方法
发布时间:2021-11-15 20:47
声音信号在生活中无处不在,人们一直在尝试着合理地将其利用。随着深度学习技术的发展,声音信号处理的能力在不断提高,给人们的生活带来了诸多便利。声学场景分类作为信号处理的新兴研究领域,近年来受到越来越多的关注,其已经被有效应用在情境感知等设备上。在生活中,录音设备的种类多种多样,由于这些设备信道的差异,导致即使在同时同地,它们所录制到的音频数据也可能存在不同。此外,由于多种原因采用不同设备所获得的声音数据量也可能不同,因此存在数据不均衡的问题。信道差异及数据不均衡的影响给声学场景分类任务的研究带来很大的困难。本文重点研究多信道不均衡数据影响下的声学场景分类问题。首先,提出基于FBank特征的卷积网络声学场景分类方法,对所有数据不区分设备地提取FBank声学特征,使用卷积神经网络对特征进行分类,使用交叉熵作为模型的损失函数。该方法作为本文的基线系统。随后,提出基于信道无关嵌入特征的声学场景分类方法。不同设备在同时同地录制所得到的平行数据对包含完全一致的语义信息,而差别仅为信道不同。考虑到从原始音频数据提取的FBank特征中会包含设备的信道信息,其与声学场景无关且会影响模型的分类准确率。因此,...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
FBank特征提取流程图
哈尔滨工业大学工学硕士学位论文-10-图2-2Mel频率滤波器组示意图三角滤波器的频率响应为,0,(1)2((1)),(1)()((1)(1))(()(1))()2((1)),()(1)((1)(1))(()(1))mkfmkfmfmkfmfmfmfmfmHkfmkfmkfmfmfmfmfm<≤≤+=+≤≤++0,kf(m1)≥(2-8)式中10()1MmmHk=∑=。使用Mel滤波器组对能量谱E(k)处理后的结果为,10()()(),1,2,...,NmkEmEkHkmM==∑=(2-9)(6)取对数得到的E(m)结果要进行取对数计算,这样的非线性关系更符合人耳,并且可以将E(m)中过大的值缩放,公式为,logFBank=E(m)=ln(E(m)),m=1,2,...,M(2-10)2.3卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)最早可以追溯到上世纪中后期,1962年Hubel和Wiesel对猫的大脑视觉系统进行研究,提出了感受野(Receptivefields)的概念[29],在视觉系统的信息处理领域做出了杰出贡献。1980年日本人工智能专家福岛邦彦受到脊椎动物视觉神经系统的启发,提出了一个包含卷积层、池化层的神经网络结构[30],具有位置特征的平移不变性和对形状的轻微畸变不敏感性,是现代卷积神经网络的鼻祖。1998年,深度学习三巨头之一的
哈尔滨工业大学工学硕士学位论文-12-中,常见的有DNN-HMM[42]、CNN[43]、LSTM[44]。现阶段,FBank特征和卷积神经网络框架的组合方式在声学场景分类任务中出现的次数越来越多。通用的卷积网络框架包含卷积层、池化层、激活层、全连接层、批标准化层等。2.3.1卷积层卷积是通过两个函数f和g生成第三个函数的一种数学算子,设f(x)和g(x)为R1上的两个可积函数,两者卷积得到新函数h(x)如式(2-11)所示,其连续的定义如式(2-12)所示,离散的定义如式(2-13)所示。h(x)=(f*g)(x)(2-11)(f*g)(x)f(τ)g(xτ)dτ∞∞=∫(2-12)(f*g)(x)f()g(x)τττ∞=∞=∑(2-13)卷积层对输入数据的处理主要依靠卷积核(Filter)的计算,卷积核的大小通常为奇数,以输入5×5矩阵,卷积核大小3×3为例,计算卷积首先将卷积核旋转180度,输入矩阵与卷积核对应位置相乘,得到的结果即为该区域卷积后的结果,移动固定的步长,直到所有区域都计算完毕,计算如图2-3所示。图2-3卷积计算示意图在AlexNet中使用的是11×11和5×5这样较大的卷积核,因为在当时人们的观念中,大的卷积核即拥有较大的感受野,这样观察到的信息就会更多,然而选择较大的卷积核所带来的缺点是计算量过于庞大,导致无法搭建深层的模型,计算效率过低。2014年牛津大学的计算机视觉组(VisualGeometryGroup,VGG)联合Google
本文编号:3497464
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:62 页
【学位级别】:硕士
【部分图文】:
FBank特征提取流程图
哈尔滨工业大学工学硕士学位论文-10-图2-2Mel频率滤波器组示意图三角滤波器的频率响应为,0,(1)2((1)),(1)()((1)(1))(()(1))()2((1)),()(1)((1)(1))(()(1))mkfmkfmfmkfmfmfmfmfmHkfmkfmkfmfmfmfmfm<≤≤+=+≤≤++0,kf(m1)≥(2-8)式中10()1MmmHk=∑=。使用Mel滤波器组对能量谱E(k)处理后的结果为,10()()(),1,2,...,NmkEmEkHkmM==∑=(2-9)(6)取对数得到的E(m)结果要进行取对数计算,这样的非线性关系更符合人耳,并且可以将E(m)中过大的值缩放,公式为,logFBank=E(m)=ln(E(m)),m=1,2,...,M(2-10)2.3卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)最早可以追溯到上世纪中后期,1962年Hubel和Wiesel对猫的大脑视觉系统进行研究,提出了感受野(Receptivefields)的概念[29],在视觉系统的信息处理领域做出了杰出贡献。1980年日本人工智能专家福岛邦彦受到脊椎动物视觉神经系统的启发,提出了一个包含卷积层、池化层的神经网络结构[30],具有位置特征的平移不变性和对形状的轻微畸变不敏感性,是现代卷积神经网络的鼻祖。1998年,深度学习三巨头之一的
哈尔滨工业大学工学硕士学位论文-12-中,常见的有DNN-HMM[42]、CNN[43]、LSTM[44]。现阶段,FBank特征和卷积神经网络框架的组合方式在声学场景分类任务中出现的次数越来越多。通用的卷积网络框架包含卷积层、池化层、激活层、全连接层、批标准化层等。2.3.1卷积层卷积是通过两个函数f和g生成第三个函数的一种数学算子,设f(x)和g(x)为R1上的两个可积函数,两者卷积得到新函数h(x)如式(2-11)所示,其连续的定义如式(2-12)所示,离散的定义如式(2-13)所示。h(x)=(f*g)(x)(2-11)(f*g)(x)f(τ)g(xτ)dτ∞∞=∫(2-12)(f*g)(x)f()g(x)τττ∞=∞=∑(2-13)卷积层对输入数据的处理主要依靠卷积核(Filter)的计算,卷积核的大小通常为奇数,以输入5×5矩阵,卷积核大小3×3为例,计算卷积首先将卷积核旋转180度,输入矩阵与卷积核对应位置相乘,得到的结果即为该区域卷积后的结果,移动固定的步长,直到所有区域都计算完毕,计算如图2-3所示。图2-3卷积计算示意图在AlexNet中使用的是11×11和5×5这样较大的卷积核,因为在当时人们的观念中,大的卷积核即拥有较大的感受野,这样观察到的信息就会更多,然而选择较大的卷积核所带来的缺点是计算量过于庞大,导致无法搭建深层的模型,计算效率过低。2014年牛津大学的计算机视觉组(VisualGeometryGroup,VGG)联合Google
本文编号:3497464
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3497464.html