基于多特征融合的SVM声学场景分类算法研究
发布时间:2021-06-25 01:34
针对DCASE2017挑战赛的声场环境数据集,提取梅尔频率倒谱系数(MFCC)、短时能量(SE)、声学事件似然特征(AELF)、静音时间(MT)特征,组成多特征融合矩阵,通过对比多种核函数和寻优算法,最终选取高斯径向基核函数(RK)建立支持向量机(SVM)模型,采用交叉验证(CV)方法进行SVM参数寻优,对15种声学场景进行分类.实验结果表明,杂货店、办公室的分类准确性达到了90%以上,平均分类准确性达到71.11%,远高于挑战赛的基线系统61%的平均分类准确性.
【文章来源】:北京理工大学学报. 2020,40(01)北大核心EICSCD
【文章页数】:7 页
【部分图文】:
MFCC提取流程图
由于声学事件音频信号样点之间存在相关性,因此一个采样值可利用若干个过去的声学事件音频采样值的线性组合来逼近,得到一组唯一的预测系数,即线性预测系数(LPC). 为了提高特征参数的稳定性,本文对声学事件音频信号求倒谱,用线性预测倒谱系数(LPCC)提取声学事件特征.1.4 静音时间(mute time,MT)
本文所用训练和测试集来自于IEEE音频与声学协会举办的DCASE2017(声学场景和事件检测分类挑战赛)公开数据集. 该数据集由芬兰坦佩雷理工大学(Tampere University of Technology,2015.06-2016.01)收录,包括15类日常生活的环境和测试集两部分. 相对于2016年挑战赛的30 s素材,2017年每段的素材长度缩减到10 s,这导致其中所包含的音频信息大大减少,无论对人类还是机器都是更难的挑战. 录音中包含了大量的声学事件,其中包括鸟叫、风声等自然音源,人的谈笑声、脚步声等人类活动音源,清洗杯盘、推拉抽屉、汽车马达声等物品发出的音源[19]. 声学场景类型如图3所示.3.2 基线系统(baseline system)
本文编号:3248225
【文章来源】:北京理工大学学报. 2020,40(01)北大核心EICSCD
【文章页数】:7 页
【部分图文】:
MFCC提取流程图
由于声学事件音频信号样点之间存在相关性,因此一个采样值可利用若干个过去的声学事件音频采样值的线性组合来逼近,得到一组唯一的预测系数,即线性预测系数(LPC). 为了提高特征参数的稳定性,本文对声学事件音频信号求倒谱,用线性预测倒谱系数(LPCC)提取声学事件特征.1.4 静音时间(mute time,MT)
本文所用训练和测试集来自于IEEE音频与声学协会举办的DCASE2017(声学场景和事件检测分类挑战赛)公开数据集. 该数据集由芬兰坦佩雷理工大学(Tampere University of Technology,2015.06-2016.01)收录,包括15类日常生活的环境和测试集两部分. 相对于2016年挑战赛的30 s素材,2017年每段的素材长度缩减到10 s,这导致其中所包含的音频信息大大减少,无论对人类还是机器都是更难的挑战. 录音中包含了大量的声学事件,其中包括鸟叫、风声等自然音源,人的谈笑声、脚步声等人类活动音源,清洗杯盘、推拉抽屉、汽车马达声等物品发出的音源[19]. 声学场景类型如图3所示.3.2 基线系统(baseline system)
本文编号:3248225
本文链接:https://www.wllwen.com/kejilunwen/wulilw/3248225.html