基于卷积神经网络的音乐信号多乐器识别方法研究
发布时间:2022-07-15 12:17
随着音乐数据的增长,基于内容的音乐信息检索已经迫在眉睫。在音乐信号中对多种乐器进行分类识别,是音乐信息检索领域的一个重要研究课题。传统的乐器识别工作大多针对单音音乐中的乐器识别和复音音乐中的主要乐器识别。受限于数据集和有效的分类特征,复音音乐中多乐器识别的工作并不多。卷积神经网络在图像识别中得到了突破性的应用,很多工作已经使用卷积神经网络对时频谱图的特征进行提取和学习。同时,最近帧级数据集的发布,也为多乐器识别问题提供了新的思路。本文通过合成数据集来扩展网络模型的可用数据量,从乐器的乐理知识出发提取关键特征,构建了符合认知逻辑的两级分类模型,提出了基于卷积神经网络的音乐信号多乐器识别方法。本文的主要工作如下:(1)调研了众多数据集,并引入了三个具有帧级标签的数据集。受其启发,我们也构建了自建数据集来增加数据规模。我们从专业平台获取了真实世界演奏的原始音频和相应的MIDI数字乐谱,选择基于动态规划的动态时间规整算法来把MIDI乐谱上的标签注释对齐到原始音频上。(2)从乐理知识和信号处理的角度出发,以音高特征和常数Q变换作为网络的输入特征。首先,提取音高特征时,我们使用了人工设置参数的滤波...
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 乐器识别的场景
1.2.2 乐器识别的方法
1.2.3 乐器识别的时间精度
1.3 本文主要工作
1.4 本文的组织结构
第二章 基础知识介绍
2.1 乐器基本知识介绍
2.1.1 乐器的音高范围
2.1.2 乐器的音色
2.1.3 乐器的分类
2.1.4 乐器适用的音乐类型
2.2 数字音乐的基础知识
2.2.1 音频的属性
2.2.2 MIDI文件
2.3 卷积神经网络的基础知识
2.3.1 卷积神经网络简介
2.3.2 损失函数
2.3.3 网络的优化
2.4 帧级数据集
2.4.1 Bach10 数据集
2.4.2 MedleyDB数据集
2.4.3 MIXING SECRETS数据集
2.5 本章小结
第三章 数据集的构建
3.1 引言
3.2 乐谱对齐算法
3.2.1 隐马尔可夫模型
3.2.2 动态时间规整算法
3.3 MIDI乐谱对齐原始音频
3.3.1 搭建流程
3.3.2 对齐结果
3.4 本章小结
第四章 音高特征与常数Q变换
4.1 引言
4.2 音高特征
4.2.1 多音高检测方法综述
4.2.2 构建音高特征提取模型
4.2.3 音高特征提取实验及结果分析
4.3 常数Q变换
4.3.1 十二平均律与常数Q变换
4.3.2 常数Q变换的快速计算及其改进
4.3.3 计算常数Q变换矩阵
4.4 本章小结
第五章 基于两级分类模型的乐器识别研究
5.1 特征处理
5.1.1 音高特征矩阵的处理
5.1.2 常数Q变换矩阵的处理
5.2 基准模型
5.2.1 基准模型的构建
5.2.2 实验与分析
5.3 基于注意力网络的分类模型
5.3.1 基于注意力网络的分类模型的构建
5.3.2 实验与分析
5.4 两级分类模型
5.4.1 两级分类模型的构建
5.4.2 实验与分析
5.5 实验总结及与现有方法对比
5.6 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]音乐信号分析中常数Q变换的性能研究[J]. 丁志中,戴礼荣. 声学技术. 2005(04)
本文编号:3662033
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
Abstract
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 乐器识别的场景
1.2.2 乐器识别的方法
1.2.3 乐器识别的时间精度
1.3 本文主要工作
1.4 本文的组织结构
第二章 基础知识介绍
2.1 乐器基本知识介绍
2.1.1 乐器的音高范围
2.1.2 乐器的音色
2.1.3 乐器的分类
2.1.4 乐器适用的音乐类型
2.2 数字音乐的基础知识
2.2.1 音频的属性
2.2.2 MIDI文件
2.3 卷积神经网络的基础知识
2.3.1 卷积神经网络简介
2.3.2 损失函数
2.3.3 网络的优化
2.4 帧级数据集
2.4.1 Bach10 数据集
2.4.2 MedleyDB数据集
2.4.3 MIXING SECRETS数据集
2.5 本章小结
第三章 数据集的构建
3.1 引言
3.2 乐谱对齐算法
3.2.1 隐马尔可夫模型
3.2.2 动态时间规整算法
3.3 MIDI乐谱对齐原始音频
3.3.1 搭建流程
3.3.2 对齐结果
3.4 本章小结
第四章 音高特征与常数Q变换
4.1 引言
4.2 音高特征
4.2.1 多音高检测方法综述
4.2.2 构建音高特征提取模型
4.2.3 音高特征提取实验及结果分析
4.3 常数Q变换
4.3.1 十二平均律与常数Q变换
4.3.2 常数Q变换的快速计算及其改进
4.3.3 计算常数Q变换矩阵
4.4 本章小结
第五章 基于两级分类模型的乐器识别研究
5.1 特征处理
5.1.1 音高特征矩阵的处理
5.1.2 常数Q变换矩阵的处理
5.2 基准模型
5.2.1 基准模型的构建
5.2.2 实验与分析
5.3 基于注意力网络的分类模型
5.3.1 基于注意力网络的分类模型的构建
5.3.2 实验与分析
5.4 两级分类模型
5.4.1 两级分类模型的构建
5.4.2 实验与分析
5.5 实验总结及与现有方法对比
5.6 本章小结
总结与展望
参考文献
攻读硕士学位期间取得的研究成果
致谢
附件
【参考文献】:
期刊论文
[1]音乐信号分析中常数Q变换的性能研究[J]. 丁志中,戴礼荣. 声学技术. 2005(04)
本文编号:3662033
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3662033.html