声信号时频纹理表征与识别技术研究

发布时间：2021-08-27 03:29

　　声信号是重要的信息载体,通过声信号来感知环境信息是机器听觉领域中重要的研究内容之一。由于声信号识别技术具有设备体积小、硬件成本低、工作过程中不受地形、角度和光线等条件限制优点。因此,声信号识别技术在安全监管、医疗监护、生态系统调查以及反恐防暴等领域均具有广阔的发展前景。本文主要从声信号的时频纹理表征以及识别技术两方面展开研究,论文的主要内容如下:本文研究了音频识别技术原理以及国内外研究现状,并根据本文研究对象的特点确立了声信号识别技术的总体方案。首先,通过梅尔滤波器组以及Gammatone滤波器组等,仿人耳听觉特性的滤波器组获取声信号的时频纹理特征。针对单一时频纹理特征无法完全表征声信号在时频域上演变过程的问题,进一步提取了声信号时频纹理特征在时域以及频域上的一阶差分特征,获取了声信号能量在时频域上的变化信息。并将三种特征结合起来形成了一种声信号的多维时频纹理特征,这种多维特征能够更加有效地为识别模型提供不同类别声信号间时频特点的差异。其次,设计了用于提取声信号高层次特征的卷积神经网络模型,针对时频纹理特征维度信息不同的特点,采用分离卷积的方式提取时频纹理特征不同维度的高层次特征,构建...

【文章来源】：西南科技大学四川省

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

声信号时频纹理表征与识别技术研究

声信号分类示意图

频谱,基本流,信号

西南科技大学硕士学位论文62声信号识别的理论研究2.1声信号识别的基本原理如图2-1所示，为声信号识别的基本流程。声信号识别的本质是一个分类问题，属于模式识别范畴。主要的识别过程可以分为两个阶段，第一个阶段为训练阶段，首先，获取声信号的时频纹理特征信息，这种特征最好能够表征不同声信号各自的时频特点，从而达到易于区分不同目标声信号的目的；然后，使用获取到的声信号特征输入识别模型进行训练，让模型能够学习到不同声信号各自的特点，并使模型的参数达到最优。第二个阶段为测试阶段，用训练完成的识别模型对声信号进行识别，得到最终的识别结果。图2-1声信号识别的基本流程本文在算法研究阶段所使用的数据集主要为ESC数据集，ESC数据集主要包含ESC-50与ESC-10两个数据集。ESC-50主要包含50类不同的声信号，由2000个音频文件组成，每个音频文件的长度为5秒，主要分为5个大类：动物声、自然环境声、非语音的人声信号、室内声以及室外声。ESC-10为ESC-50的子集，其中包含400个音频，可分为10类：狗叫声、雨声、海浪声、婴儿哭泣声、时钟嘀嗒声、喷嚏声、直升机声、电锯声、公鸡叫声以及火焰燃烧的爆裂声。在进行分类识别的过程中，仅对单一类别的声源信号进行识别，对于多类声源产生的声信号的混合识别情况并未进行研究。如图2-2(a)所示，为狗叫声的频谱，从中可看出其频率成分主要集中在10kHz以下，狗叫声的能量分布主要在5kHz以内。如图2-2(b)和2-2(c)所示，为雨声与海浪声的频谱，二者在频率成分在频域内的分布十分相似，与白噪声相同都是布满整个频域，只是在频域的不同频段内的幅度变化有所不同。如图2-2(d)所示，婴儿哭声在频域内的分布主要集中在两个部分，第一部分为6kHz~8kHz，第二部分为12kHz~15kHz。适中嘀嗒声的频?

频谱,数据集中,频谱,信号

2声信号识别的理论研究7(a)狗叫声(b)雨声(c)海浪声(d)婴儿哭泣声(e)时钟嘀嗒声(f)喷嚏声图2-2ESC数据集中6种声信号的频谱基于传统机器学习算法的声信号识别需要人工定义特征，然后对提取到的特征进行人为的编码与处理。虽然这种方式取得了一定的成果，但在定义特征的过程中需要大量的专家经验以及实验，需要耗费大量的时间与精力。并且在此过程中还可能丢失关键信息而造成识别性能差的情况。对于一些差异较小的目标，想通过人工提取出具有区分度的特征更是困难重重。而现阶段的深度学习算法可以通过多层次的线性与非线性运算，提取出不同目标的特征信息，并通过学习这些关键的特征信息用于区分不同的目标。在使用深度学习网络建立的识别模型之前，需要通过大量的数据进行模型训练，通过这种方式达到使

【参考文献】：
期刊论文
[1]Deep ESC网络的环境声分类方法研究[J]. 阴法明,王诗佳,赵力.  声学技术. 2019(05)
[2]低信噪比下公共场所异常声音声学特征提取[J]. 李伟红,王伟冰,龚卫国.  声学学报. 2019(05)
[3]基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法[J]. 王天锐,鲍骞月,秦品乐.  计算机应用. 2019(12)
[4]一种时频平滑的深度神经网络语音增强方法[J]. 袁文浩,梁春燕,娄迎曦,房超,王志强.  西安电子科技大学学报. 2019(04)
[5]基于特征迁移的多物种鸟声识别方法[J]. 刘昊天,姜海燕,舒欣,徐彦,伍艳莲,郭小清.  数据采集与处理. 2017(06)
[6]基于深度学习神经网络的孤立词语音识别的研究[J]. 王山海,景新幸,杨海燕.  计算机应用研究. 2015(08)
[7]基于Gammatone滤波器组的说话人识别算法研究[J]. 茅正冲,王正创,王丹.  计算机工程与应用. 2015(01)
[8]深度学习研究综述[J]. 孙志军,薛磊,许阳明,王正.  计算机应用研究. 2012(08)
[9]公共场所典型异常声音的特征提取[J]. 栾少文,龚卫国.  计算机工程. 2010(07)
[10]基于MFCC和短时能量混合的异常声音识别算法[J]. 吕霄云,王宏霞.  计算机应用. 2010(03)

博士论文
[1]复杂音频的事件检测与分类中的关键问题研究[D]. 冷严.北京邮电大学 2012

硕士论文
[1]基于声谱图的音频事件检测特征提取研究[D]. 李英杰.北京邮电大学 2017

本文编号：3365555

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3365555.html

上一篇：基于激光雷达的车前路形测量技术研究
下一篇：HEVC帧间预测算法的研究与改进

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|