当前位置:主页 > 科技论文 > 信息工程论文 >

深度学习在音乐自动标注中的应用

发布时间:2018-03-06 14:27

  本文选题:深度学习 切入点:音乐 出处:《北京交通大学》2017年硕士论文 论文类型:学位论文


【摘要】:在音乐标注领域,传统标注模型总是遵循一种固定的方式:从一组注释的歌曲出发,这组歌曲由音频的特征向量来表示,由此学习一系列对应不同标注的模型来进行预测。这种方式存在很大冗余;另一方面,大规模数据集的出现为模型设计带来了新的思路。因此,本文从近年兴起的深度学习入手,结合大规模的训练数据,探索更加简洁和准确的标注手段。具体来说,本文首先基于自动音乐标记研究的典型数据集:Magnatagatune数据集,对应不同的特征输入(梅尔频谱图、频谱图、梅尔频谱系数、原始音频)设计了 3种不同结构的卷积神经网络模型,对比了它们在同一数据集(Magnatagatune数据集)上的效果,发现梅尔频谱图、原始音频比频谱图以及梅尔频谱系数等特征在音频自动标记上有明显优势。然后我们设计了可视化模型来观察训练好的模型参数中不同层的卷积核对怎样的输入有最强的响应,并且可视化了这些响应。同时我们设计了不同深度的深度学习网络,在更大的数据集MSD(Million Song Dataset)的带标记的子数据集(last.fm)上进行了试验,发现在更大的数据集上,层数更深的模型明显优于浅的模型,该结果与计算机视觉领域的最新研究成果相吻合。同时,通过对比相同模型在不同数据集上的表现,我们能清晰地看到数据集大小的提升对于不同深度模型效果的重要影响。本文的贡献主要包括:(1)设计了多种结构的音乐自动标记的深度学习模型,在Magnatagatune数据集上对比了不同音频的中低层特征作为模型输入的效果,发现梅尔频谱图模型、原始音频模型的效果明显优于频谱图模型、梅尔频谱系数模型。同时,我们设计的原始音频模型在该数据集上取得了优于先前工作的 AUC(Area Under Curve)。(2)在更大的数据集MSD上对比了不同深度的模型的效果,发现深度更深的模型在更大的数据集上明显表现出优势,同时也启发我们数据集的大小对于发掘深度学习模型实际效果和潜力的重要影响。(3)可视化已训练好的模型,发现在梅尔频谱图模型中更高的卷积层中的卷积核对于频率的响应在一定程度上吻合了人耳听觉系统音阶响应的分布。
[Abstract]:In the field of music tagging, the traditional tagging model always follows a fixed way: starting from a set of annotated songs, the songs are represented by the audio feature vector. So we learn a series of models corresponding to different annotations to predict. This method has a lot of redundancy; on the other hand, the emergence of large-scale data sets has brought new ideas for model design. This paper starts with the deep learning that has arisen in recent years, combines the large-scale training data, and explores more concise and accurate annotation methods. Specifically, this paper first based on the typical data set of automatic music tagging research:: Magnatagatune dataset. Three convolutional neural network models with different structures are designed for different feature inputs (Mel spectrum map, spectrum map, Mel spectrum coefficient, original audio frequency), and their effects on the same data set are compared. Found the Mayer spectrum, The features of the original audio ratio spectrum and Mel spectrum coefficient have obvious advantages in Audio automatic marking. Then we design a visual model to observe how the input of convolution check in different layers of the trained model parameters has the strongest response. At the same time, we designed a depth learning network of different depths, experimented with a tagged subdataset of larger data sets MSD(Million Song Datasetet.fm, and found that on larger datasets, Models with deeper layers are significantly better than those with shallow ones, and the results are consistent with the latest research in the field of computer vision. At the same time, by comparing the performance of the same model on different data sets, We can clearly see the important effect of increasing the size of data sets on the effects of different depth models. In this paper, we compare the effect of medium and low level features of different audio frequency as model input on Magnatagatune data set. We find that the effect of Mel spectrum model and original audio model is obviously better than that of spectrum chart model and Mel spectrum coefficient model. The original audio model we designed has achieved better results on this dataset than the previously worked AUC(Area Under Curve.Ni2) compared with models of different depths on the larger data set MSD. It is found that the deeper model has obvious advantages on the larger data set, and it also enlightens us that the size of the data set plays an important role in exploring the practical effect and potential of the depth learning model. It is found that the frequency response of the convolutional kernel in the higher convolution layer in the Mel spectrum model is consistent with the distribution of the scale response of the human auditory system to some extent.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 张尔强;创建SAS数据集的技巧[J];数理医药学杂志;2003年01期

2 ;数据集N鄽2[J];航空材料;1959年09期

3 江海洪 ,罗长坤;首套中国数字化可视人体数据集在第三军医大学研制成功[J];中华医学杂志;2003年09期

4 陈相颖;数据集记录快速定位与筛选方法之探讨[J];计量与测试技术;2005年06期

5 张晓斌;魏永祥;韩德民;夏寅;李希平;原林;唐雷;王兴海;;数字化耳鼻咽喉数据集的采集[J];中华耳鼻咽喉头颈外科杂志;2005年06期

6 王宏鼎;唐世渭;董国田;;数据集成中数据集特征的检测方法[J];中国金融电脑;2006年03期

7 张华;郁书好;;时空数据集的连接处理和优化方法研究[J];皖西学院学报;2006年02期

8 苗卿;单立新;裘昱;;信息熵在数据集分割中的应用研究[J];电脑知识与技术(学术交流);2007年05期

9 陈德诚;丘平珠;唐炳莉;;广西气象数据集设计与制作[J];气象研究与应用;2007年04期

10 赵凤英;王崇骏;陈世福;;用于不均衡数据集的挖掘方法[J];计算机科学;2007年09期

相关会议论文 前10条

1 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年

2 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

3 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年

4 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

5 段磊;唐常杰;左R,

本文编号:1575229


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/1575229.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户1d770***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com