当前位置:主页 > 科技论文 > 信息工程论文 >

基于多分辨率时频特征融合的声学场景分类

发布时间:2021-10-28 18:44
  声学场景分类是计算机听觉中最难的任务之一,在单一特征条件下采用基本的卷积神经网络相对于传统的分类方法精度已经有所提升,但是效果依然不够理想。针对这一问题,在卷积神经网络框架下,提出了一种基于时频特征融合的声学场景分类方案。在分类模型构建方面,提出一种多分辨率卷积池化方案,构造多分辨率卷积神经网络,以更好地适应提取特征的时频结构;在特征选取方面,融合低层次包络特征对数——Mel子带能量和高层次结构特征——非负矩阵分解系数矩阵,把两种二维特征堆叠为三维特征送入分类模型。在2017年和2018年声学场景分类和事件检测挑战赛的开发数据集上进行了训练和测试。实验结果表明,文中提出方案比基线系统的分类精度分别提高7.5%和10.3%,可有效改善分类效果。 

【文章来源】:声学技术. 2020,39(04)北大核心CSCD

【文章页数】:7 页

【文章目录】:
0引言
1 方案框架
2 MCNN模型
    2.1 适应声音时频结构的CNN框架
    2.2 MCNN
3 特征选取
    3.1 LME特征
    3.2 NMF特征
    3.3 融合特征
4 实验结果与分析
    4.1 实验数据
    4.2 基线系统
    4.3 结果分析
        4.3.1 MCNN模型效果
        4.3.2 融合特征效果
5 结论



本文编号:3463181

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3463181.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ebcf3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com