基于节拍谱的语音音乐分类模型
发布时间:2021-11-21 03:40
语音音乐分类是语音信号处理领域的重要研究方向。针对以往方法通过提取短时能量、短时幅度等特征参数来区分语音和音乐而忽视音乐具有节拍的特性,为此提出了基于节拍谱的话音分类模型。此模型在针对语音和音乐两类信号中,先对语音信号进行预处理,并对待分类的信号计算得到梅尔频率倒谱系数,再计算梅尔频率倒谱系数的相似矩阵和相似矩阵的自相关,得到待分类信号的节拍谱,最后通过阈值判断待信号类别。经试验结果证明,此模型对比传统分类模型,分类准确率提高到98%。
【文章来源】:通信技术. 2020,53(11)
【文章页数】:5 页
【部分图文】:
模型流程
图1 模型流程步骤2:基于文献[8],用余弦相似度计算MFCC参数两两之间的相似性,可得到一个相似矩阵。其中,语音信号的节拍没有周期性规律,音乐信号会周期性形成峰值。实验使用MATLAB的cos函数计算得到特征向量的相似性。余弦距离更多从方向上区分差异,而对绝对的数值不敏感。正因为余弦相似度在数值上的不敏感,只能分辨个体在维度之间的差异,没法衡量每个维数值的差异,所以得到的相似矩阵更能体现出节拍的周期性规律。
步骤3:用相似矩阵的自相关性得到节拍谱。基于文献[9]中关于节拍的特征,它能够反映节奏的周期性变化规律。节拍谱不依赖于能量或频率等特定属性,因此适用于任何类型的音乐或音频,反映了节拍周期性变化规律。实验使用MATLAB的xcorr函数计算其自相关。节拍谱中的峰值对应于音乐信号中的主要节奏成分,不同峰的相对振幅反映了其对应韵律成分的强弱。一些拥有强烈节奏感的音乐节拍谱的峰值变化会比较明显,而节奏感比较弱的峰值变化稍弱。图3为音乐的节拍谱图,可以看到有明显的起伏。步骤4:归一化。归一化的目的是把得到的数据限制在一定区间内,使得各个音频的数据易于后续的处理,且可以消除奇异样本数据导致的不良影响。归一化公式为:
【参考文献】:
期刊论文
[1]基于改进时频比的语音音乐信号分离[J]. 郭伟,于凤芹. 计算机工程. 2015(03)
[2]快速准确的自动音乐/语音分段方法[J]. 万玉龙,周若华,颜永红. 清华大学学报(自然科学版). 2013(06)
[3]基于MLER和GMM的语音音乐分类[J]. 陈红红,刘加. 电声技术. 2011(10)
[4]基于MLER的语音/音乐分类方法[J]. 胡艳芳,吴及,刘慧星. 清华大学学报(自然科学版). 2008(S1)
[5]基于EMGDHMM的音频自动分类[J]. 王超,吴亚锋. 电声技术. 2007(11)
[6]基于短时能量的语音/音乐快速分类[J]. 陈功,王振力,张建兵. 电子技术应用. 2006(01)
[7]基于隐马尔可夫模型的音频自动分类[J]. 卢坚,陈毅松,孙正兴,张福炎. 软件学报. 2002(08)
本文编号:3508698
【文章来源】:通信技术. 2020,53(11)
【文章页数】:5 页
【部分图文】:
模型流程
图1 模型流程步骤2:基于文献[8],用余弦相似度计算MFCC参数两两之间的相似性,可得到一个相似矩阵。其中,语音信号的节拍没有周期性规律,音乐信号会周期性形成峰值。实验使用MATLAB的cos函数计算得到特征向量的相似性。余弦距离更多从方向上区分差异,而对绝对的数值不敏感。正因为余弦相似度在数值上的不敏感,只能分辨个体在维度之间的差异,没法衡量每个维数值的差异,所以得到的相似矩阵更能体现出节拍的周期性规律。
步骤3:用相似矩阵的自相关性得到节拍谱。基于文献[9]中关于节拍的特征,它能够反映节奏的周期性变化规律。节拍谱不依赖于能量或频率等特定属性,因此适用于任何类型的音乐或音频,反映了节拍周期性变化规律。实验使用MATLAB的xcorr函数计算其自相关。节拍谱中的峰值对应于音乐信号中的主要节奏成分,不同峰的相对振幅反映了其对应韵律成分的强弱。一些拥有强烈节奏感的音乐节拍谱的峰值变化会比较明显,而节奏感比较弱的峰值变化稍弱。图3为音乐的节拍谱图,可以看到有明显的起伏。步骤4:归一化。归一化的目的是把得到的数据限制在一定区间内,使得各个音频的数据易于后续的处理,且可以消除奇异样本数据导致的不良影响。归一化公式为:
【参考文献】:
期刊论文
[1]基于改进时频比的语音音乐信号分离[J]. 郭伟,于凤芹. 计算机工程. 2015(03)
[2]快速准确的自动音乐/语音分段方法[J]. 万玉龙,周若华,颜永红. 清华大学学报(自然科学版). 2013(06)
[3]基于MLER和GMM的语音音乐分类[J]. 陈红红,刘加. 电声技术. 2011(10)
[4]基于MLER的语音/音乐分类方法[J]. 胡艳芳,吴及,刘慧星. 清华大学学报(自然科学版). 2008(S1)
[5]基于EMGDHMM的音频自动分类[J]. 王超,吴亚锋. 电声技术. 2007(11)
[6]基于短时能量的语音/音乐快速分类[J]. 陈功,王振力,张建兵. 电子技术应用. 2006(01)
[7]基于隐马尔可夫模型的音频自动分类[J]. 卢坚,陈毅松,孙正兴,张福炎. 软件学报. 2002(08)
本文编号:3508698
本文链接:https://www.wllwen.com/kejilunwen/wltx/3508698.html