当前位置:主页 > 文艺论文 > 音乐艺术论文 >

基于卷积神经网络的中国乐器分类

发布时间:2024-03-01 00:09
  中国乐器有着丰富的种类,但过去由于缺少数字化的保存形式,在音乐信息检索领域有关它们的研究很少.基于中国音乐学院收集完成的中国乐器数据库,本文旨在找到每种中国乐器各自独有的声音特征,并希望找到泛化能力较强的模型以更好地利用有限的数据集.使用卷积神经网络并以对数Mel声谱图作为输入特征,在所构建的两个子数据集中实现了超过97%的分类准确率,说明所构建的模型能较好地学习到每种乐器的特征.此外,当以较短片段数据集训练的模型来对较长片段的数据集进行分类时,准确率依然高达92.70%,说明模型具有较好的泛化能力.

【文章页数】:6 页

【部分图文】:

图1曲笛和侗笛的MFCC特征

图1曲笛和侗笛的MFCC特征

我们比较了被作为音频特征广泛地使用的Mel频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)[3]和常数Q变换(ConstantQTransform,CQT)[4].图1展示了曲笛和侗笛的MFCC特征,图1(a),(b)来自曲笛的....


图2曲笛和侗笛的CQT特征

图2曲笛和侗笛的CQT特征

图1曲笛和侗笛的MFCC特征大数据时代机器算力的提升使得深度学习得以蓬勃发展,而深度神经网络可以自动地从数据中学习到特征,从而减少人本身在特征工程中所做的工作.伴随着深度学习的广泛使用,当使用神经网络作为分类器时,对数Mel声谱图[5]被普遍采用.从提取过程上来讲,提取对数Me....


图3特征提取的过程

图3特征提取的过程

特征提取的整个过程如图3所示.首先,采样率为44.1kHz的单声道音频在使用汉宁窗分窗后被分成一系列的帧,在这个过程中使用了1024个采样点作为跳距,2048个采样点作为窗距.之后,快速傅里叶变换在每一帧上得到了使用,这样就得到了声谱图.接下来,64个Mel滤波器组被用来对得....


图4VGGish的网络结构

图4VGGish的网络结构

VGGish的网络结构如图4所示,它由8个卷积层和1个全连接层组成,使用对数Mel声谱图作为输入特征.每个卷积层的通道数都在图4中进行了标注,卷积层的卷积核的大小为3×3,步长为1,每次卷积操作前会对图像进行大小为1的边缘像素填充,批量归一化(BatchNormalizatio....



本文编号:3915140

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yinlelunwen/3915140.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户61c54***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com