基于双重数据增强策略的音频分类方法
发布时间:2021-07-23 21:20
卷积神经网络模型作为音频特征提取器具有较好的应用效果,但该类模型的训练过程对数据量要求比较高。针对这一问题,本文提出一种基于双重数据增强策略的音频分类方法。首先采用传统音频数据增强方法(旋转、调音、变调、加噪),并将增强后的数据转化为语谱图,再采用随机均值替换法进行谱图增强。在此基础上训练InceptionResnetV2神经网络模型作为音频特征提取器,最后训练随机森林模型作为分类器完成音频分类任务。实验结果表明,与已有方法相比,采用双重数据增强策略可明显提升音频分类精度,并且训练出的特征提取模型具有较强的泛化能力。
【文章来源】:武汉科技大学学报. 2020,43(02)北大核心
【文章页数】:6 页
【部分图文】:
DDA-IRRF方法的框架结构
卷积神经网络属于前馈神经网络,在提取特征上具有很好的表现,能够挖掘出数据的内在结构规律。本文使用Google研究团队推出的卷积神经网络模型Inception_Resnet_V2(见图3)[15]来完成音频高层特征的提取工作。其中,Stem模块采用多次卷积操作与两次池化操作,是进入Inception结构的预处理过程,可以防止瓶颈问题。Inception_resnet模块则主要完成特征维度上的提取工作,引入的残差结构可有效防止梯度下降问题。Inception_resnet模块后面对应的Reduction模块采用了并行结构,主要作用仍是防止瓶颈问题。Inception_Resnet_V2模型的最后一层采用的是Softmax分类器。图3 Inception_Resnet_V2模型结构
Inception_Resnet_V2模型结构
【参考文献】:
期刊论文
[1]基于深度学习与随机森林的高维数据特征选择[J]. 冯晓荣,瞿国庆. 计算机工程与设计. 2019(09)
[2]理解数字声音——基于一般音频/环境声的计算机听觉综述[J]. 李伟,李硕. 复旦学报(自然科学版). 2019(03)
[3]基于神经形态电路的音频场景特征提取及识别技术[J]. 王雨辰,胡华. 计算机应用研究. 2018(12)
[4]基于Kinect辅助的机器人带噪语音识别[J]. 王建荣,高永春,张句,魏建国,党建武. 清华大学学报(自然科学版). 2017(09)
硕士论文
[1]音频场景检测机制的设计与实施[D]. 刘若澜.北京邮电大学 2017
本文编号:3300059
【文章来源】:武汉科技大学学报. 2020,43(02)北大核心
【文章页数】:6 页
【部分图文】:
DDA-IRRF方法的框架结构
卷积神经网络属于前馈神经网络,在提取特征上具有很好的表现,能够挖掘出数据的内在结构规律。本文使用Google研究团队推出的卷积神经网络模型Inception_Resnet_V2(见图3)[15]来完成音频高层特征的提取工作。其中,Stem模块采用多次卷积操作与两次池化操作,是进入Inception结构的预处理过程,可以防止瓶颈问题。Inception_resnet模块则主要完成特征维度上的提取工作,引入的残差结构可有效防止梯度下降问题。Inception_resnet模块后面对应的Reduction模块采用了并行结构,主要作用仍是防止瓶颈问题。Inception_Resnet_V2模型的最后一层采用的是Softmax分类器。图3 Inception_Resnet_V2模型结构
Inception_Resnet_V2模型结构
【参考文献】:
期刊论文
[1]基于深度学习与随机森林的高维数据特征选择[J]. 冯晓荣,瞿国庆. 计算机工程与设计. 2019(09)
[2]理解数字声音——基于一般音频/环境声的计算机听觉综述[J]. 李伟,李硕. 复旦学报(自然科学版). 2019(03)
[3]基于神经形态电路的音频场景特征提取及识别技术[J]. 王雨辰,胡华. 计算机应用研究. 2018(12)
[4]基于Kinect辅助的机器人带噪语音识别[J]. 王建荣,高永春,张句,魏建国,党建武. 清华大学学报(自然科学版). 2017(09)
硕士论文
[1]音频场景检测机制的设计与实施[D]. 刘若澜.北京邮电大学 2017
本文编号:3300059
本文链接:https://www.wllwen.com/kejilunwen/wltx/3300059.html