基于CNN的多音调钢琴转录算法的研究与实现
发布时间:2021-08-05 03:41
自动音乐转录(Automatic Music Transcription,AMT)算法将原始音乐翻译为符号标记,主要包含了音符的起始时间,结束时间和音调三个信息,它在音乐教学、音乐欣赏、音乐信息检索、乐理分析等方面有着广泛的应用。但是多音调自动音乐转录算法仍然是一个具有挑战性的问题。本文实现了一套基于卷积神经网络(Convolutional Neural Network,CNN)的多音调钢琴转录算法。首先对原始的钢琴音乐信号进行时频分析,读入双声道的音乐信号后进行常数Q变换(Constant Q Transform,CQT)得到双声道时频特征表示;接着进行多音调起始时间检测,通过多音调起始时间检测模型检测并行音符的起始时间,公共起始时间检测模型检测并行音符的公共起始时间,并对多音调起始时间对齐;最后进行多音调结束时间检测,通过帧级多音调检测模型检测每个音符的结束时间。本文的主要工作包括:(1)调查国内外相关研究现状,并简述自动音乐转录的核心技术;(2)设计并实现了多音调起始时间检测模块,采用两个基于CNN的模型实现了音符的起始时间和音调信息的检测,采用对齐后处理策略优化了多音调起始时间...
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
relu图像表示在实际的应用中,sigmoid和tanh更常用于全连接层,而relu则更适合于卷积层
图 3.4 F#4 音符时域图及对应 CQT 频谱图②输入采用 CQT 的频谱特征,其频谱轴为对数轴。当频谱特征整体向上或者向下平移时,其标签也会随之变化。Samuel[45]在 2017 年利用这种特性在有限的数据集上记性了数据集扩增。而 CNN 的池化层使 CNN 学习到的特征具有平移不变性,结合对数轴的 CQT 频谱,可以学习到音调不变性的特征。③相比于 DNN,CNN 采用共享参数进行特征提取过程,既可以减少模型的大小,同时还能有效防止过拟合,提高模型的泛化性能。(3)输出:多音调起始时间检测模型会检测输入帧中的新弹奏音符的音调信息,故其神经网络的输出层包含 88 个输出单元,对应了钢琴中的 88 个按键音符,故该模型是一个多标签多任务模型,可能在某个时刻同时有多个新增音符存在,也就是同时有多个钢琴键被按下。激活函数采用 sigmoid,输出值在(0,1),表示了输入帧时刻是某个音符的起始时间的概率。
华 中 科 技 大 学 硕 士 学 位 论 文需要利用时频信号的变化特征,相当于空间特征,故需要连续数帧频谱的输入,故采用滑窗方式截取一个频谱图作为最终的输入,最终设定的。3)最大值归一化:为了让 CNN 模型能更好的识别输入特征,我们对据进行了最大值归一化,将输入频谱的值归一化到(0, 1)。
本文编号:3322993
【文章来源】:华中科技大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:66 页
【学位级别】:硕士
【部分图文】:
relu图像表示在实际的应用中,sigmoid和tanh更常用于全连接层,而relu则更适合于卷积层
图 3.4 F#4 音符时域图及对应 CQT 频谱图②输入采用 CQT 的频谱特征,其频谱轴为对数轴。当频谱特征整体向上或者向下平移时,其标签也会随之变化。Samuel[45]在 2017 年利用这种特性在有限的数据集上记性了数据集扩增。而 CNN 的池化层使 CNN 学习到的特征具有平移不变性,结合对数轴的 CQT 频谱,可以学习到音调不变性的特征。③相比于 DNN,CNN 采用共享参数进行特征提取过程,既可以减少模型的大小,同时还能有效防止过拟合,提高模型的泛化性能。(3)输出:多音调起始时间检测模型会检测输入帧中的新弹奏音符的音调信息,故其神经网络的输出层包含 88 个输出单元,对应了钢琴中的 88 个按键音符,故该模型是一个多标签多任务模型,可能在某个时刻同时有多个新增音符存在,也就是同时有多个钢琴键被按下。激活函数采用 sigmoid,输出值在(0,1),表示了输入帧时刻是某个音符的起始时间的概率。
华 中 科 技 大 学 硕 士 学 位 论 文需要利用时频信号的变化特征,相当于空间特征,故需要连续数帧频谱的输入,故采用滑窗方式截取一个频谱图作为最终的输入,最终设定的。3)最大值归一化:为了让 CNN 模型能更好的识别输入特征,我们对据进行了最大值归一化,将输入频谱的值归一化到(0, 1)。
本文编号:3322993
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3322993.html