基于内容的音乐流派自动分类系统的研究与实现
发布时间:2021-01-03 21:43
随着互联网和多媒体技术的迅猛发展,在线音乐服务已经成为面向大众消费者最重要的互联网在线服务之一。互联网上的音乐曲库规模已经极其庞大,各大在线曲库中不乏曲目规模上百万者,这些曲库的规模还在迅速扩大中。随之而来的一个重要又紧迫的需求是自动化标注并合理组织与分类海量的数字化音乐曲目,以便消费者根据个人喜好高效便捷地从海量音乐曲库中检索自己感兴趣的音乐曲目。近年来音乐信息检索(Music Information Retrieval,MIR)已经发展为一个令人瞩目的新兴研究领域,其中基于内容的音乐流派自动分类是一个重要的音乐自动标注任务。本研究设计并实现了 一个基于内容的音乐流派自动分类系统。作者根据音乐在时间上的流动特点,结合卷积神经网络和长短时记忆网络设计了一种特殊结构的基于音乐梅尔频谱的深度学习分类器,并在GTZAN数据集上验证了该网络结构的有效性;该深度学习分类器的另一个优点是其可以方便地对音乐进行实时处理;为了进一步提高该深度学习分类器的分类准确率,作者对梅尔频谱进行了和声打击分离,并引入集成学习技术,最终获得了超高的分类准确率;为了指导分类系统按照给定目标音乐流派标签进行音乐检索,本...
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1输入层神经元??Fig.2-1?Input?Neurons??
OOOOOOOOOOOOOOOOOOOOOOOOOOOO??OOOOOOOOOOOOOOOOOOOOOOOOOOOO??图2-1输入层神经元??Fig.2-1?Input?Neurons??按照惯例,将输入像素连接到隐含层神经元。但是CNN与全连接层的不同之处??在于,CNN只在输入图像的小型局部区域建立连接。具体来说,第一个隐含层中的??每个神经元将连接到输入神经元的一个小区域,例如,对应于25X25个输入像素的5??X5区域。所以,对于一个特定的隐藏神经元,我们可能有这样的连接:??13??
?'??mmMmmEmmsmmsm??图2-4卷积连接??Fig.2-4?Convolution?Connection??以此类推建立第一个隐含层。请注意,如果我们有28X28的输入图像和5X5的??局部感受域,那么隐含层中将会有24X24个神经元。这是因为我们只能在碰撞输入??图像的右侧(或底部)之前移动局部感受域神经元。??以上经展示了局部感受域一次被移动一个像素。事实上,有时也使用不同的步幅??长度。例如可以将局部感受域2像素向右(或向下)移动,在这种情况下即使用了长??度为2的步幅。??2.2.3共享权值和偏置??每个隐藏的神经元都有一个偏置,和几个共享权值连接到它的局部感受域,且将??对隐藏层中的所有神经元都使用相同的权值和偏置。即对于第j,k个隐藏的神经元,??其输出是:??/?4?4?、??小+?S?X??知"??式(2-9)??V?/=0?m=0?j??其中,0■是神经元的激活函数,可能是sigmoid函数。6是共享的偏置。气?是5??X5的共享权值矩阵。〇^表示位置X
本文编号:2955538
【文章来源】:北京化工大学北京市 211工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-1输入层神经元??Fig.2-1?Input?Neurons??
OOOOOOOOOOOOOOOOOOOOOOOOOOOO??OOOOOOOOOOOOOOOOOOOOOOOOOOOO??图2-1输入层神经元??Fig.2-1?Input?Neurons??按照惯例,将输入像素连接到隐含层神经元。但是CNN与全连接层的不同之处??在于,CNN只在输入图像的小型局部区域建立连接。具体来说,第一个隐含层中的??每个神经元将连接到输入神经元的一个小区域,例如,对应于25X25个输入像素的5??X5区域。所以,对于一个特定的隐藏神经元,我们可能有这样的连接:??13??
?'??mmMmmEmmsmmsm??图2-4卷积连接??Fig.2-4?Convolution?Connection??以此类推建立第一个隐含层。请注意,如果我们有28X28的输入图像和5X5的??局部感受域,那么隐含层中将会有24X24个神经元。这是因为我们只能在碰撞输入??图像的右侧(或底部)之前移动局部感受域神经元。??以上经展示了局部感受域一次被移动一个像素。事实上,有时也使用不同的步幅??长度。例如可以将局部感受域2像素向右(或向下)移动,在这种情况下即使用了长??度为2的步幅。??2.2.3共享权值和偏置??每个隐藏的神经元都有一个偏置,和几个共享权值连接到它的局部感受域,且将??对隐藏层中的所有神经元都使用相同的权值和偏置。即对于第j,k个隐藏的神经元,??其输出是:??/?4?4?、??小+?S?X??知"??式(2-9)??V?/=0?m=0?j??其中,0■是神经元的激活函数,可能是sigmoid函数。6是共享的偏置。气?是5??X5的共享权值矩阵。〇^表示位置X
本文编号:2955538
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2955538.html