保留立体声相位信息的声音场景分类系统

发布时间：2021-12-02 10:24

　　针对立体声音频采集设备逐渐普及的趋势,本文提出了一种保留立体声相位信息的声音场景分类算法。在预处理阶段,根据左右通道的相位信息对音频样本进行源环境提取,生成一种全新的四通道特征。在此基础上,集成多个卷积神经网络,搭建一个针对立体声音频录音的声音场景分类系统。区别于现有声音场景分类系统只使用时频谱的幅度信息,本文所提出的方法保留了立体声音频的相位信息。这使得声学特征中所包含的空间方位信息更丰富,立体声音频的优势得到发挥。实验结果证明保留立体声相位信息的声音场景分类系统具有更好的性能,在2019年IEEE音频和声学信号处理技术委员会举办的声音场景分类赛事中相比于基线系统的整体识别准确率提升了18.3%。

【文章来源】：信号处理. 2020,36(06)北大核心CSCD

【文章页数】：8 页

【部分图文】：

保留立体声相位信息的声音场景分类系统

源环境提取在复数平面上的几何表示

滤波器图,滤波器,尺度,带通滤波器

梅尔频率尺度的对数分布关系更适应于人的感官,在梅尔尺度下我们使用一系列的等距三角形带通滤波器组成梅尔滤波器组,取每个三角形滤波器频率带宽内所有的信号幅度加权和作为该带通滤波器的输出,对时频图进行滤波。滤波器组在普通频域尺度下的分布如图2所示。3.2 A-weighting修正

架构图,声音,场景,架构

本次实验一共涉及到了3个数据集,包括TAU(Tampere University)2019城市声音场景开发数据集、TAU 2019城市声音场景排行数据集和TAU 2019城市声音场景评估数据集。数据集的采集设备为Soundman OKM II Klassik/studio A3和Zoom F8,在采集过程中麦克风会佩戴在采集者的左右耳上以最大程度还原人类听觉系统的工作方式,这种采集方式也为我们提取相位信息提供了先决条件。其中,TAU 2019城市声音场景开发数据集是一个高质量的双通道音频数据集,包含了在10个欧洲城市中收集的各种声音场景样本。录音的总时长为 40小时,总共14400个10 s录音片段,包括机场、巴士、地铁、地铁站、公园、公共广场、购物中心、街道、步行街道、交通电车10个分类,每个类别对应1440个录音片段。开发数据集包含训练子集和评估子集两部分可以进行初始评估。而TAU 2019城市声音场景排行数据集和TAU 2019城市声音场景评估数据集均未公开标签信息,仅用于Kaggle线上挑战赛在线评估和声音场景分类赛事最终评估。声音场景分类赛事是由IEEE音频和声学信号处理技术委员会(AASP)举办的声音场景/事件的检测/分类(Detection and Classification of Acoustic Scenes and Events, DCASE)挑战赛的一个常驻子任务,也是其中历史最悠久,竞争最激烈的子任务。5.2 训练配置

【参考文献】：
期刊论文
[1]卷积神经网络在异常声音识别中的研究[J]. 胡涛,张超,程炳,吴小培. 信号处理. 2018(03)

本文编号：3528252

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3528252.html

上一篇：NOMA系统下行链路的信号检测技术研究及实现
下一篇：阵列天线广义数字波束成形的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|