基于双重数据增强策略的音频分类方法

发布时间：2021-07-23 21:20

　　卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法（旋转、调音、变调、加噪）,并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练Inception_Resnet_V2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。

【文章来源】：武汉科技大学学报. 2020,43(02)北大核心

【文章页数】：6 页

【部分图文】：

基于双重数据增强策略的音频分类方法

DDA-IRRF方法的框架结构

语谱图,语谱图,数据,卷积

卷积神经网络属于前馈神经网络,在提取特征上具有很好的表现,能够挖掘出数据的内在结构规律。本文使用Google研究团队推出的卷积神经网络模型Inception＿Resnet＿V2（见图3)[15]来完成音频高层特征的提取工作。其中，Stem模块采用多次卷积操作与两次池化操作，是进入Inception结构的预处理过程，可以防止瓶颈问题。Inception＿resnet模块则主要完成特征维度上的提取工作，引入的残差结构可有效防止梯度下降问题。Inception＿resnet模块后面对应的Reduction模块采用了并行结构，主要作用仍是防止瓶颈问题。Inception＿Resnet＿V2模型的最后一层采用的是Softmax分类器。图3 Inception_Resnet_V2模型结构

语谱图,模型结构,语谱图,分类器

Inception_Resnet_V2模型结构

【参考文献】：
期刊论文
[1]基于深度学习与随机森林的高维数据特征选择[J]. 冯晓荣,瞿国庆.  计算机工程与设计. 2019(09)
[2]理解数字声音——基于一般音频/环境声的计算机听觉综述[J]. 李伟,李硕.  复旦学报(自然科学版). 2019(03)
[3]基于神经形态电路的音频场景特征提取及识别技术[J]. 王雨辰,胡华.  计算机应用研究. 2018(12)
[4]基于Kinect辅助的机器人带噪语音识别[J]. 王建荣,高永春,张句,魏建国,党建武.  清华大学学报(自然科学版). 2017(09)

硕士论文
[1]音频场景检测机制的设计与实施[D]. 刘若澜.北京邮电大学 2017

本文编号：3300059

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/wltx/3300059.html

上一篇：捷联惯导传递对准性能优化关键技术研究
下一篇：电磁空心光束在湍流大气中的斜程传输特性

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|