基于深度网络和哈希学习的音乐识别
发布时间:2021-06-11 15:33
最近随着互联网和数字音频技术的发展,音乐信息检索MIR(Music information retrieval)逐渐成为研究热点。其中,对音乐风格进行识别是一项重要的研究内容;此外,乐器、歌曲情绪等的识别也是研究热点。目前音乐信息检索领域的识别分类系统主要流程是先手动提取音乐特征,再对分类器进行训练建模,最后把音乐特征输入建好的模型中进行识别分类。但现在手动提取音乐特征技术遇到了瓶颈。深度学习作为一种新的特征提取技术,已在图像处理、自然语言理解等领域拥有了出色的表现,因此本文利用深度学习强大的特征提取功能发现更适用于音乐识别分类的音乐特征,并设计不同的网络结构,基于这些音乐特征进行识别分类。首先针对大多基于时间特征的音乐风格识别分类性能不佳的问题,提出了考虑时间和频率两方面特征的HPSS(Harmonic/Percussion Sound Separation)分离算法,把原始音乐信号谱图分离成时间特征谐波分量和频率特征冲击分量,并联合原始谱图一起作为卷积神经网络(ConvolutionalNeuralNetwork,CNN)的输入;然后设计了 CNN的网络结构以及研究了该网络结构中不...
【文章来源】:南京信息工程大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
音频信号的STET图
顿字(Hz)?吋间(s)??图2-1音频信号的STFT图??Fig.2-1?Resulting?of?STFT?for?audio?signal??(2)?MFCC??声音是模拟信号,声音的时域波形只代表声音随时间变化的关系,不能很好的代表??声音的特征,因此,必须将声音波形转换为声学特征向量。目前冇许多声音特征提取方??法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接「1?MPKG7??等,其屮MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特??征提取算法。在提取MFCC前,需要对声音做前期处理,包括模数转换、预加重和加窗。??模数转换就是把模拟信号转换为数字信号,包括两个步骤:采样和量化,即以?定的采??样率和采样位数把声昔连续波形转换为离散的数据点。采样和M化U对波形做M?FCC??特征提取,算法流程图如阁2-2所示,图2-3是一个典型的12阶的MFCC恃征参数的??三维表示图。??Spect
帧数阶数??阁2-3?MFCC特征图??Fig.2-3?MFCC?features??(3)?mel-spectrogram??梅尔声谱(mel-spectrogram)足一种时间-频率表证(time-frequency?representation)。??从音频倍号的窄重叠窗n傅立叶变换得到的。每个傅立叶变换构成帧。然a:将这??连续的帧排列成-个矩阵,就形成了这个声谱。最后将频率轴由线性刻度变成梅尔刻??(mel?scale)以降低维数,并且采用对数刻度值。??梅尔声谱阁是荇乐识别的首选输入类型,其包拈音乐标签、边界、起始检测和潜在??征学等广泛的特征,并且己经证明梅尔尺度与人类听觉系统相似[|2],为了获得梅尔??谱阁,需要将STFT和对幅度取对数作为预处理步骤,然后使用梅尔滤波,直接将声??矩阵输入网络进行识别分类,详细步骤在第四章中会进行详细阐述。图2-4为某个咅??信号的梅尔广_'谱阁。????x104??
【参考文献】:
期刊论文
[1]Spherical torus-based video hashing for near-duplicate video detection[J]. Xiushan NIE,Yane CHAI,Ju LIU,Jiande SUN,Yilong YIN. Science China(Information Sciences). 2016(05)
[2]基于样本熵的语音/音乐识别[J]. 杨松,于凤芹. 计算机工程与应用. 2012(23)
本文编号:3224803
【文章来源】:南京信息工程大学江苏省
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
音频信号的STET图
顿字(Hz)?吋间(s)??图2-1音频信号的STFT图??Fig.2-1?Resulting?of?STFT?for?audio?signal??(2)?MFCC??声音是模拟信号,声音的时域波形只代表声音随时间变化的关系,不能很好的代表??声音的特征,因此,必须将声音波形转换为声学特征向量。目前冇许多声音特征提取方??法,如梅尔频率倒谱系数MFCC、线性预测倒谱系数LPCC、多媒体内容描述接「1?MPKG7??等,其屮MFCC是基于倒谱的,更符合人的听觉原理,因而是最普遍、最有效的声音特??征提取算法。在提取MFCC前,需要对声音做前期处理,包括模数转换、预加重和加窗。??模数转换就是把模拟信号转换为数字信号,包括两个步骤:采样和量化,即以?定的采??样率和采样位数把声昔连续波形转换为离散的数据点。采样和M化U对波形做M?FCC??特征提取,算法流程图如阁2-2所示,图2-3是一个典型的12阶的MFCC恃征参数的??三维表示图。??Spect
帧数阶数??阁2-3?MFCC特征图??Fig.2-3?MFCC?features??(3)?mel-spectrogram??梅尔声谱(mel-spectrogram)足一种时间-频率表证(time-frequency?representation)。??从音频倍号的窄重叠窗n傅立叶变换得到的。每个傅立叶变换构成帧。然a:将这??连续的帧排列成-个矩阵,就形成了这个声谱。最后将频率轴由线性刻度变成梅尔刻??(mel?scale)以降低维数,并且采用对数刻度值。??梅尔声谱阁是荇乐识别的首选输入类型,其包拈音乐标签、边界、起始检测和潜在??征学等广泛的特征,并且己经证明梅尔尺度与人类听觉系统相似[|2],为了获得梅尔??谱阁,需要将STFT和对幅度取对数作为预处理步骤,然后使用梅尔滤波,直接将声??矩阵输入网络进行识别分类,详细步骤在第四章中会进行详细阐述。图2-4为某个咅??信号的梅尔广_'谱阁。????x104??
【参考文献】:
期刊论文
[1]Spherical torus-based video hashing for near-duplicate video detection[J]. Xiushan NIE,Yane CHAI,Ju LIU,Jiande SUN,Yilong YIN. Science China(Information Sciences). 2016(05)
[2]基于样本熵的语音/音乐识别[J]. 杨松,于凤芹. 计算机工程与应用. 2012(23)
本文编号:3224803
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3224803.html