基于CNN的多音调钢琴转录算法的研究与实现

发布时间：2021-08-05 03:41

　　自动音乐转录（Automatic Music Transcription,AMT）算法将原始音乐翻译为符号标记,主要包含了音符的起始时间,结束时间和音调三个信息,它在音乐教学、音乐欣赏、音乐信息检索、乐理分析等方面有着广泛的应用。但是多音调自动音乐转录算法仍然是一个具有挑战性的问题。本文实现了一套基于卷积神经网络（Convolutional Neural Network,CNN）的多音调钢琴转录算法。首先对原始的钢琴音乐信号进行时频分析,读入双声道的音乐信号后进行常数Q变换（Constant Q Transform,CQT）得到双声道时频特征表示;接着进行多音调起始时间检测,通过多音调起始时间检测模型检测并行音符的起始时间,公共起始时间检测模型检测并行音符的公共起始时间,并对多音调起始时间对齐;最后进行多音调结束时间检测,通过帧级多音调检测模型检测每个音符的结束时间。本文的主要工作包括:（1）调查国内外相关研究现状,并简述自动音乐转录的核心技术;（2）设计并实现了多音调起始时间检测模块,采用两个基于CNN的模型实现了音符的起始时间和音调信息的检测,采用对齐后处理策略优化了多音调起始时间...

【文章来源】：华中科技大学湖北省 211工程院校 985工程院校教育部直属院校

【文章页数】：66 页

【学位级别】：硕士

【部分图文】：

relu图像表示在实际的应用中，sigmoid和tanh更常用于全连接层，而relu则更适合于卷积层

频谱图,音符,时域,频谱图

图 3.4 F#4 音符时域图及对应 CQT 频谱图②输入采用 CQT 的频谱特征，其频谱轴为对数轴。当频谱特征整体向上或者向下平移时，其标签也会随之变化。Samuel[45]在 2017 年利用这种特性在有限的数据集上记性了数据集扩增。而 CNN 的池化层使 CNN 学习到的特征具有平移不变性，结合对数轴的 CQT 频谱，可以学习到音调不变性的特征。③相比于 DNN，CNN 采用共享参数进行特征提取过程，既可以减少模型的大小，同时还能有效防止过拟合，提高模型的泛化性能。（3）输出：多音调起始时间检测模型会检测输入帧中的新弹奏音符的音调信息，故其神经网络的输出层包含 88 个输出单元，对应了钢琴中的 88 个按键音符，故该模型是一个多标签多任务模型，可能在某个时刻同时有多个新增音符存在，也就是同时有多个钢琴键被按下。激活函数采用 sigmoid，输出值在（0,1），表示了输入帧时刻是某个音符的起始时间的概率。

示意图,滑窗,频谱,信号

华中科技大学硕士学位论文需要利用时频信号的变化特征，相当于空间特征，故需要连续数帧频谱的输入，故采用滑窗方式截取一个频谱图作为最终的输入，最终设定的。3）最大值归一化：为了让 CNN 模型能更好的识别输入特征，我们对据进行了最大值归一化，将输入频谱的值归一化到（0, 1）。

本文编号：3322993

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3322993.html

上一篇：动态环境下移动机器人运动目标测速方法
下一篇：口香糖装箱机械臂设计及动态特性分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|