当前位置:主页 > 科技论文 > 网络通信论文 >

基于双重数据增强策略的音频分类方法

发布时间:2021-07-23 21:20
  卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法(旋转、调音、变调、加噪),并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练InceptionResnetV2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。 

【文章来源】:武汉科技大学学报. 2020,43(02)北大核心

【文章页数】:6 页

【部分图文】:

基于双重数据增强策略的音频分类方法


DDA-IRRF方法的框架结构

语谱图,语谱图,数据,卷积


卷积神经网络属于前馈神经网络,在提取特征上具有很好的表现,能够挖掘出数据的内在结构规律。本文使用Google研究团队推出的卷积神经网络模型Inception_Resnet_V2(见图3)[15]来完成音频高层特征的提取工作。其中,Stem模块采用多次卷积操作与两次池化操作,是进入Inception结构的预处理过程,可以防止瓶颈问题。Inception_resnet模块则主要完成特征维度上的提取工作,引入的残差结构可有效防止梯度下降问题。Inception_resnet模块后面对应的Reduction模块采用了并行结构,主要作用仍是防止瓶颈问题。Inception_Resnet_V2模型的最后一层采用的是Softmax分类器。图3 Inception_Resnet_V2模型结构

语谱图,模型结构,语谱图,分类器


Inception_Resnet_V2模型结构

【参考文献】:
期刊论文
[1]基于深度学习与随机森林的高维数据特征选择[J]. 冯晓荣,瞿国庆.  计算机工程与设计. 2019(09)
[2]理解数字声音——基于一般音频/环境声的计算机听觉综述[J]. 李伟,李硕.  复旦学报(自然科学版). 2019(03)
[3]基于神经形态电路的音频场景特征提取及识别技术[J]. 王雨辰,胡华.  计算机应用研究. 2018(12)
[4]基于Kinect辅助的机器人带噪语音识别[J]. 王建荣,高永春,张句,魏建国,党建武.  清华大学学报(自然科学版). 2017(09)

硕士论文
[1]音频场景检测机制的设计与实施[D]. 刘若澜.北京邮电大学 2017



本文编号:3300059

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/3300059.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户edd6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com