基于深层神经网络的音频特征提取及场景识别研究
本文关键词:基于深层神经网络的音频特征提取及场景识别研究
更多相关文章: 音频特征提取 卷积神经网络 解卷积神经网络 音频场景识别
【摘要】:音频场景识别(Audio Context Recognition)是人工智能领域重要的研究方向之一,该技术依据周边声音感知环境动态,对机器作出进一步智能选择有着非常重要的意义。近年来有较多的学者涉足这一研究方向,他们大多采用先特征提取后分类器分类的研究框架,其中,对如何提取能够反映音频场景声学特性的识别特征方面给与了较多的关注。所采用的声学特征可以粗略的分为两大类:短时特征和长时特征。短时特征如单音轨梅尔频率倒谱系数、多音轨梅尔频率倒谱系数、梅尔频率倒谱系数和稀疏特征的联合特征等;长时特征多为音频段的长时统计值或基于语义相关性的特征等。从研究结果上看,目前的声学特征都有其不足之处,短时特征往往不足以完整地刻画一个音频场景的特性,长时特征往往缺乏对音频段内部细节的描述,而长时统计值中缺失的内部结构信息对区分音频场景也有重用的价值。本文对既能反映音频段长时特性又能反映局部结构性的声学特征的提取方法进行研究,并验证了它们在音频场景识别任务中的有效性。深层神经网络能够通过自学习来发现适合分类任务的特征向量,这已经在图像尤其是自然图像的结构性特征分析方面得到了验证,这些特征提取方法能够很好地反映出图像的结构信息,相对于主观分析方法有着很大的优势。所以,本课题借助深层神经网络的特征分析能力在语谱图上进行场景长时结构性特征的分析与提取。主要研究内容如下:首先研究了基于卷积神经网络的音频场景特征分析提取方法,卷积神经网络通过卷积和下采样操作对输入数据进行非线性映射,最终通过重构误差的反向传播进行参数的调节,从而提取出能够刻画音频场景特性的声学特征。卷积神经网络在训练是以输入数据的类别重构误差最小化为优化目标的,所以训练过程需要大量的有标签数据。现实情况下,往往难以得到大量带标签的训练数据,因为对数据进行标注费时费力,所以本文也提出了基于解卷积神经网络的特征提取方法。解卷积神经网络模型在特征分析处理过程中不仅保留了卷积神经网络的卷积操作和下采样操作,而且还在原来的基础上有了些改进,其参数更新过程是基于对输入数据重构误差的反向传播进行的,这样就不需要带标签的数据。采用这种特征提取方法,音频场景数据的采集相对来说就较为容易,训练数据不足的问题就得到了很好的解决。通过实验验证,我们得到的结果是,采用基于卷积神经网络得到的音频特征,进行场景识别的性能有很大提升;基于解卷积神经网络分析得到的特征虽然对识别性能没有较大的提升,但是针对训练数据不足的问题它还是有效的。
【关键词】:音频特征提取 卷积神经网络 解卷积神经网络 音频场景识别
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP183;TN912.34
【目录】:
- 摘要4-6
- ABSTRACT6-10
- 第1章 绪论10-17
- 1.1 课题背景及研究的目的和意义10
- 1.2 国内外研究现状10-15
- 1.2.1 声学特征分析研究现状10-12
- 1.2.2 音频场景识别研究现状12-13
- 1.2.3 深度神经网络的研究现状13-15
- 1.3 研究内容15-17
- 第2章 基于MFCC和KNN的场景识别基线系统17-28
- 2.1 引言17
- 2.2 基本流程、预处理及特征提取17-19
- 2.2.1 基线系统基本流程17
- 2.2.2 音频信号预处理及特征提取17-19
- 2.3 场景识别19-25
- 2.3.1 K近邻算法的理论基础及算法流程20-21
- 2.3.2 KNN模型及基本要素21-24
- 2.3.3 K近邻算法应用24-25
- 2.4 实验结果及分析25-26
- 2.4.1 实验数据25-26
- 2.4.2 实验参数调整及结果分析26
- 2.5 本章小结26-28
- 第3章 基于卷积神经网络的音频特征提取及场景识别28-47
- 3.1 引言28
- 3.2 现有音频特征在场景识别方面的适用性分析28-29
- 3.3 基于CNN的深层特征提取原理及学习算法29-34
- 3.3.1 CNN拓扑结构29-30
- 3.3.2 CNN计算方式30-31
- 3.3.3 CNN学习算法31-34
- 3.4 基于CNN的场景特征提取及识别分析34-37
- 3.4.1 语谱图的特性以及CNN方法的适用性34-36
- 3.4.2 卷积滤波器的设计36-37
- 3.4.3 特征提取及分类37
- 3.5 实验过程及结果分析37-46
- 3.5.1 实验数据37-38
- 3.5.2 实验基本网络结构38
- 3.5.3 实验参数调整及结果分析38-42
- 3.5.4 实验流程及中间结果分析42-46
- 3.6 本章小结46-47
- 第4章 基于解卷积神经网络的音频特征提取及场景识别47-59
- 4.1 引言47
- 4.2 基于解卷积神经网络的特征分析47-53
- 4.2.1 解卷积神经网络的拓扑结构48
- 4.2.2 解卷积神经网络的计算方式48-52
- 4.2.3 解卷积神经网络的学习算法52-53
- 4.3 解卷积神经网络用于音频场景的特征分析及识别算法53-55
- 4.3.1 解卷积神经网络的适用性分析53-55
- 4.3.2 解卷积神经网络用于音频场景特征提取及识别算法55
- 4.4 实验结果及分析55-57
- 4.4.1 实验数据预处理55
- 4.4.2 实验基本网络结构55-56
- 4.4.3 实验参数调整及结果分析56-57
- 4.5 本章小结57-59
- 结论59-60
- 参考文献60-65
- 致谢65
【相似文献】
中国期刊全文数据库 前10条
1 马少华,高峰,李敏,吴成东;神经网络分类器的特征提取和优选[J];基础自动化;2000年06期
2 管聪慧,宣国荣;多类问题中的特征提取[J];计算机工程;2002年01期
3 胡威;李建华;陈波;;入侵检测建模过程中特征提取最优化评估[J];计算机工程;2006年12期
4 朱玉莲;陈松灿;赵国安;;推广的矩阵模式特征提取方法及其在人脸识别中的应用[J];小型微型计算机系统;2007年04期
5 赵振勇;王保华;王力;崔磊;;人脸图像的特征提取[J];计算机技术与发展;2007年05期
6 冯海亮;王丽;李见为;;一种新的用于人脸识别的特征提取方法[J];计算机科学;2009年06期
7 朱笑荣;杨德运;;基于入侵检测的特征提取方法[J];计算机应用与软件;2010年06期
8 王菲;白洁;;一种基于非线性特征提取的被动声纳目标识别方法研究[J];软件导刊;2010年05期
9 陈伟;瞿晓;葛丁飞;;主观引导特征提取法在光谱识别中的应用[J];科技通报;2011年04期
10 王华,李介谷;人脸斜视图象的特征提取与恢复[J];上海交通大学学报;1997年01期
中国重要会议论文全文数据库 前10条
1 尚修刚;蒋慰孙;;模糊特征提取新算法[A];1997中国控制与决策学术年会论文集[C];1997年
2 潘荣江;孟祥旭;杨承磊;王锐;;旋转体的几何特征提取方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 薛燕;李建良;朱学芳;;人脸识别中特征提取的一种改进方法[A];第十三届全国图象图形学学术会议论文集[C];2006年
4 杜栓平;曹正良;;时间—频率域特征提取及其应用[A];2005年全国水声学学术会议论文集[C];2005年
5 黄先锋;韩传久;陈旭;周剑军;;运动目标的分割与特征提取[A];全国第二届信号处理与应用学术会议专刊[C];2008年
6 魏明果;;方言比较的特征提取与矩阵分析[A];2009系统仿真技术及其应用学术会议论文集[C];2009年
7 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
8 秦建玲;李军;;基于核的主成分分析的特征提取方法与样本筛选[A];2005年中国机械工程学会年会论文集[C];2005年
9 刘红;陈光,
本文编号:610340
本文链接:https://www.wllwen.com/kejilunwen/wltx/610340.html