基于深度学习的哼唱音频乐谱识别技术研究

发布时间：2020-05-27 14:21

【摘要】：哼唱识别是当前音乐信息提取研究中的一大热点,其目标是根据用户的哼唱,识别出用户哼唱的歌曲。由于其交互形式友好,在移动设备上使用便利,相关技术在音乐检索、音乐推荐等领域具有广阔的应用前景。本文针对哼唱音频信号自动识别问题,研究了深度学习研究中常用方法和手段,将深度学习方法应用到哼唱识别中,结合传统音频信号处理方法,提出了一种基于深度学习框架的识别方法,设计了一个哼唱音频识别深度学习框架,实现对人声哼唱的音乐信号进行识别。本文还基于此实现了一个具有实用价值、可扩展性强的哼唱音频乐谱识别系统,通过实验验证了所提出的基于深度学习的哼唱识别算法的可行性。论文的研究工作主要包括:(1)研究了哼唱音频数据处理方法,包括音频滤波、预加重、加窗分帧、音符起始点检测、音频信号特征表示等方法,对比了不同方法之间的区别和优缺点,针对深度学习数据集的要求选取了合适的方法进行深入研究和实践。(2)深入研究了当前深度学习研究的理论基础与常用方法,包括常用神经网络的设计与训练方法,应用广泛的各类神经网络结构的原理与优缺点等。基于此设计了一个卷积循环神经网络模型,结合卷积神经网络在局部特征提取和循环神经网络在归纳序列数据特征方面的优势,提高哼唱音频信号识别的准确率。(3)利用开源深度学习平台与工具,对所提出的神经网络模型进行了实验与论证。通过在测试数据集上进行训练和测试,反复调整模型,得到了效果较好的模型参数。并通过在测试数据集上的评估测试,验证了所提出的神经网络模型的可行性和有效性,并对模型性能进行了分析和评估。(4)基于所提出的深度学习框架,利用服务端和移动端开发技术,设计实现了一个哼唱音频乐谱识别原型系统,包括服务端的音频识别服务、移动端的音频录制、音频上传等功能模块。
【图文】：

识别问题,技术路线,论文,音频

逡逑总体的技术路线如图１．１所示。逡逑哼唱音频数据集逡逑０邋０邋０逡逑ＤＳＤ１００邋ＭｅｄｌｅｙＤＢ邋自行录制逡逑逦邋Ｙ逡逑哼唱音频处理逡逑ｙ逡逑哼唱识别神经网络模型逡逑卷积层邋循环层邋批量归一化逡逑ＲｅＬＵ逦Ｄｒｏｐｏｕｔ邋？邋？邋？逡逑逦邋逦＾邋ｒ逦逡逑卜此恮叫逦，目鸭识别．逡逑Ｂｏｔｔｌｅ邋框架逦＾逦Ｗｅｂ邋服务逦逦逡逑逦？哼唱识别系统逡逑Ｒｅａｃｔ邋Ｎａｔｉｖｅ框架逦＾邋Ｄ邋ＳＳｆｆｌ邋Ｈ逡逑图１．１本文技术路线逡逑１．４论文组织结构逡逑本文主要研究基于深度学习的哼唱音频识别问题，将阐述研宄中使用到的相逡逑关技术的原理和理论基础、实验使用的网络模型以及实验和结果分析。论文分为逡逑六个章节，每章的内容如下：逡逑第一章绪论，提出论文的研究背景和研究意义，分析国内外当前的研究情况，逡逑介绍本文的研究目标和研宄内容，制定整体的技术路线。逡逑第二章为论文的理论基础，概括了深度学习的概念，介绍了深度学习研宄的逡逑一般方法及其应用，重?

可视化,配置文件,视觉学,代码

ＴｅｎｓｏｒＦｌｏｗ还具备高度移植性，基于ＴｅｎｓｏｒＦｌｏｗ编写的代码可以在几乎不逡逑经过修改的情况下，部署到多种终端上，即使不同设备可能拥有不同的ＣＰＵ或逡逑ＧＰＵ数量、不同的操作系统和硬件环境。同时ＴｅｎｓｏｒＦｌｏｗ的编译速度极快，在逡逑探索网络结构设计时，付出的时间代价非常小。逡逑２．５．２邋Ｃａｆｆｅ逡逑Ｃａｆｆｅ是一个被广泛使用的开源深度学习框架，由伯克利视觉学中心进行维逡逑护。Ｃａｆｆｅ的主要优势包括：逡逑（１）可以快速开始，网络结构都是以配置文件形式定义，不需要用代码设逡逑计网络。逡逑（２）拥有大量训练好的经典模型。逡逑（３）高度模块化的算法，扩展性和可重用性高。逡逑Ｃａｆｆｅ的核心概念是Ｌａｙｅｒ，，每一个神经网络的模块都是一个Ｌａｙｅｒ，Ｌａｙｅｒ逡逑接收输入数据，同时经过内部计算产生输出数据，设计网络结构时，只需要通过逡逑配置文件把各个Ｌａｙｅｒ拼接在一起构成完成的网络［４（）］。如图２．４所示，展示了一逡逑
【学位授予单位】：武汉大学
【学位级别】：硕士
【学位授予年份】：2018
【分类号】：J613.2;TP181

【参考文献】