基于深度学习的音频场景分类方法研究

发布时间：2021-07-08 07:41

　　在声音信号检索（Sound Information Retrieval,SIR）领域,音频场景分类（Environmental Sound Classification,ESC）作为该领域的热点问题,致力于通过分析从各种音频信号中提取的复杂特性,识别其对应的特定场景所包含的语义标签,从而对其周围环境进行感知和理解,最终实现特定音频场景的分类。常用音频信号特征提取方法为梅尔频率倒谱系数（MEL Frequency Cepstrum Coefficient,MFCC）。这种方法虽然抗干扰能力强,能够抓取音频数据中最有辨识度的部分,但却只能分析信号的短时特征,往往不足以完整刻画整个音频数据的结构特点。近年来深度学习技术日益成熟并作为最有效的特征提取方法之一,已在机器学习、图像识别、自然语言处理等诸多领域取得突破性进展^[1]。卷积神经网络（Convolutional Neural Networks,CNN）作为典型的深度学习网络框架,具有权值共享和局部连接等特性,特别是带有池化层的卷积神经网络在对城市声音声源分类方面卓有成效。然而,池化操作往往会导致信息的大量丢失,从而影...

【文章来源】：山西大学山西省

【文章页数】：66 页

【学位级别】：硕士

【部分图文】：

基于深度学习的音频场景分类方法研究

音频场景分类流程图

流程图,预处理,流程图,预滤波

分析的数字信号。音频信号的数字化处理一般包括预滤波、采样、A|D 转换等，预处理部分包括预加重、去加重、加窗、分帧等。音频信号数字化及预处理的基本流程如图2.2所示。通过预滤波抑制输入信号各频域分量中超出采样频率的所有分量，9基于深度学习的音频场景分类方法研究

示意图,帧长,示意图,分帧

特征、频域特征和倒谱域特征。同时，为了增强帧两端的连续性，使连续帧之间实现平滑过渡，保证分帧后的信号片段相关性更强，具体操作中往往采用连续有交叠的分帧方式，如图2.3所示，其中 N 代表帧长，M 为帧移，即帧间重叠部分。分帧通过有限长度的窗口加权(窗函数) 后平滑的在时间轴上进行滑动实现，即加窗操作。通过加窗操作可以有效避免音频信号的截断，保持信号的连续性，降低帧两端的坡度，避免信息遗失或泄11

【参考文献】：
期刊论文
[1]基于改进的卷积神经网络在图片分类中的应用[J]. 赵新秋,贺海龙,杨冬冬,段思雨.  高技术通讯. 2018(Z2)
[2]基于视觉的情感分析研究综述[J]. 李祖贺,樊养余.  计算机应用研究. 2015(12)
[3]基于深度学习的作曲家分类问题[J]. 胡振,傅昆,张长水.  计算机研究与发展. 2014(09)
[4]音频检索技术研究[J]. 李晨,周明全.  计算机技术与发展. 2008(08)

硕士论文
[1]基于Spark的贝叶斯文本分类算法研究与实现[D]. 鲁彬.湖南大学 2016
[2]基于视觉信息引导的舰载无人机精确着舰技术研究[D]. 吴赛飞.南京航空航天大学 2016
[3]门限玻尔兹曼机在人脸识别中的鲁棒性研究[D]. 施维蒨.北京交通大学 2015

本文编号：3271158

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3271158.html

上一篇：基于对抗迁移学习的少样本基因表达谱癌症分类
下一篇：基于遗传算法的全局七阶耗散紧致格式优化与应用

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|